Professional Documents
Culture Documents
Statistika U Psihologiji - Priručnik
Statistika U Psihologiji - Priručnik
Statistika U Psihologiji - Priručnik
Statistika u psihologiji
Prirunik za studente
Sarajevo, 2012
ii
Nermin apo
Ratko oki
STATISTIKA U PSIHOLOGIJI, PRIRUNIK ZA STUDENTE
Urednik:
Prof. dr. Ivo Komi
Recenzenti:
Prof. dr. Valentin Bucik
Doc. dr. Denana Husremovi
Izdanje:
Prvo
Izdava:
Filozofski fakultet u Sarajevu
Sarajevo, 2012
Elektronsko izdanje
------------------------------------------------CIP - Katalogizacija u publikaciji
Nacionalna i univerzitetska biblioteka
Bosne i Hercegovine, Sarajevo
159.9:519.2(075.8)(076)
APO, Nermin
Statistika u psihologiji : prirunik za
studente [Elektronski izvor] / Nermin apo, Ratko
oki. - Sarajevo : Filozofski fakultet, 2012. - 1
elektronski optiki disk (CD-ROM) : tekst, slike ;
12 cm
Nasl. s naslovnog ekrana.
ISBN 978-9958-625-22-0
1. oki, Ratko
COBISS.BH-ID 19349510
------------------------------------------------iii
iv
Statistika u psihologiji
Prirunik za studente
Sarajevo, 2012
ii
Predgovor
Statistika u psihologiji prirunik je namijenjen prvenstveno studentima koji zapoinju izuavati
metodologiju psiholokih istraivanja. Premda se Statistika u nastavnim programima psihologije
izuava kao zaseban predmet, statistike metode zapravo su sastavni dio istraivakog procesa, to
se u pisanju ovog prirunika nastojalo posebno naglasiti. Prirunik je pripremljen s osnovnim ciljem
da studentima prui saeta objanjenje osnovnih statistikih pojmova, ije poznavanje je preduslov
za naprednije nastavne programe iz Statistike, kao i nauno-istraivaku praksu. Pri tome, koristili
smo pristup uobiajen u edukaciji iz Statistike na studijama iz drutvenih i humanistikih nauka, a
kojim se definicije i objanjenja koncepata daju bez komplikovanih matematikih izraza i izvoda.
Na kraju, elimo se zahvaliti svima koji su na razliite naine doprinijeli nastanku ovog teksta. U
prvom redu, to su generacije studenata Odsjeka za psihologiju Filozofskog fakulteta u Sarajevu
kojima je Prirunik i namjenjen. Njih smo najvie oslukivali dok smo radili na ovom tekstu.
Statistikim rjenikom reeno, udio njihove varijance u objanjenju nastanka ovog Prirunika je
najvei. Nadalje, zahvaljujemo se i kolegama sa Odsjeka na podrci da posao zapoet prije nekoliko
godina dovedemo do kraja. Posebnu zahvalnost dugujemo Jadranki Kolenovi-apo koja je prva
proitala rukopis, dala vrijedne savjete i sugestije i nesebino pomogla u tehnikom dijelu posla
vanom za nastanak Prirunika. Zahvaljujemo se Marijani Gali, koja je s znatieljom i strpljenjem
proitala rukopis te iz pozicije strunjaka ekonomskih nauka dala korisne sugestije.
iii
Sadraj
1. Uvod ......................................................................................................................... 1
2. Grafiko i tabelarno predstavljanje podataka ........................................................... 8
3. Mjere centralne tendencije ..................................................................................... 29
4. Mjere varijabiliteta ................................................................................................. 49
5. Osnovni koncepti vjerovatnoe .............................................................................. 70
6. Normalna raspodjela ............................................................................................... 82
7. Standardna pogreka aritmetike sredine ............................................................... 99
8. Testiranje hipoteza................................................................................................ 117
9. Testiranje razlika izmeu dvije aritmetike sredine ............................................. 131
10. Analiza varijance ................................................................................................ 147
11. Korelacija i regresija........................................................................................... 179
12. Rjeenja .............................................................................................................. 220
iii
1. Uvod
Pojam statistika ima najmanje dva znaenja. Prema jednom znaenju, statistika oznaava
numerike vrijednosti kojima se opisuje skup podataka (npr. prosjeni kolski uspjeh uenika jedne
kole, ili raspon rezultata koje ispitanici postiu na testu znanja iz nastavnog predmeta Statistika u
psihologiji). Prema drugom znaenju, statistika je grana matematike i predstavlja skup postupaka
koje koristimo za prikupljanje, prezentaciju, analizu i interpretaciju podataka. Na studiju psihologije
izuava se primijenjena statistika, odnosno metode za deskripciju i analizu podataka izvedene iz
osnovnih matematikih principa. Naini kojim se do njih dolo predmetom su izuavanja teorijske
statistike.
Postupci koje koristimo u opisu podataka (npr. odreivanje broj kategorija, centralne
vrijednosti, aritmetike sredine, itd.) dio su deskriptivne statistike, dok je donoenje zakljuaka o
populaciji na osnovu podataka dobivenih na uzorku dio inferencijalne statistike. Deskriptivne
statistike postupke koristimo, npr., kada elimo opisati jednu ili vie grupa ispitanika, a
inferencijanu statistiku kako bi pokazali da li je razlika dobivena na ogranienom skupu podataka
vjerovatna i na populacijama.
Statistika je sastavni dio istraivakog procesa jer provedba istraivanja ukljuuje
prikupljanje, obradu i analizu podataka. Stoga predmet Statistika u psihologiji pripada metodolokoj
grupi predmeta, u koju ubrajamo i Metodologiju psiholokih istraivanja i Psihometriju.
Statistika je vana i u svakodnevnom ivotu. Poznavanje statistikih pojmova i koncepata,
vjetine i sposobnosti njihovog koritenja ine statistiku pismenost. Obzirom da smo svakodnevno
izloeni podacima na osnovu kojih donosimo odluke, statistika pismenost pomae nam da bolje
razumijemo svijet u kojem ivimo. Ponekad podaci ne odraavaju realnost i mogu nas navesti na
donoenje pogrene odluke. Statistika nam pomae da izmeu nekoliko odluka izaberemo najbolju.
Varijabla, mjerenje, populacija, uzorak, parametar i statistik dio su osnovnog vokabulara
statistike. Stoga emo u ovom poglavlju navest osnovne definicije ovih pojmova.
Varijabla (promjenljiva) je svojstvo pojave (osobe, objekta ili dogaaja) koje se mijenja.
Nekim varijablama jednostavno klasificiramo pojave u jednu od grupa ili kategorija (npr. spol
osoba je mukog spola; boja kose osoba ima kosu plave boje); ove varijable nazivamo
kategorijalnim varijablama. Drugim varijablama odreujemo koliinu neega, i nazivamo ih
kvantitativnim varijablama. Kvantitativne varijable mogu biti diskretne (vrijednosti varijable
mogu poprimiti samo neke vrijednosti iz odreenog intervala, pri emu su vrijednosti jasno
odijeljene) i kontinuirane (teorijski, ove varijable mogu poprimiti bilo koju vrijednost iz odreenog
intervala; izmeu pojedinih vrijednosti ne postoji skokovit prijelaz kao kod diskretnih varijabli).
Zavisne varijable se mijenjaju zbog promjene drugih varijabli. One nisu pod kontrolom istraivaa.
Njihovu promjenu objanjavamo, opisujemo ili klasificiramo pomou drugih varijabli. Obino se
oznaavaju slovom Y. Nezavisne varijable su pod kontrolom istraivaa. Njima se objaanjavaju,
opisuju ili klasificiraju promjene zavisne varijable. Obino se oznaavaju slovom X.
1
PRIMJER 1.1
Pretpostavimo da je vrijeme izbora i da se ne moete odluiti izmeu dva predsjednika
kandidata. Kriteriji kojeg koristite za izbor je prethodni angaman svakog od kandidata u rjeavanju
razliitih problema zatite okoline. Kandidat A navodi da je 30 puta glasao za razliita zakonska
rjeenja koja se odnose na zatitu okoline, dok kandidat B istie da je glasao u 70% sluajeva za
takva zakonska rjeenja. Za koga biste glasali?
Za donoenje odluke potrebno je dodatno istraivanje koje ukljuuje prikupljanje vie
podataka nego to su ih ponudili kandidati. Kandidat A glasao je za 30 zakonskih rjeenja, ali je
preutio da je za 70 glasao protiv. Premda je kandidat B glasao u 70% sluajeva, nije naveo da se u
ostalih 30% sluajeva radilo o najvanijim zakonima.
Na kraju, moemo zakljuiti da niti jedan kandidat zapravo nije dobar izbor. Istraivanje i
pravilno zakljuivanje (drugim rijeima statistika) pomoi e nam u donoenju dobrih odluka.
PRIMJER 1.2
Rezultati nekih istraivanja ukazuju da uenici nieg socio-ekonomskog statusa postiu nii
kolski uspjeh. Uenici koji ive u ekonomski nepovoljnijim uslovima, imaju manje mogunosti za
kvalitetnije kolovanje. kolski psiholog odluio je istraiti povezanost izmeu odreenih socioekonomskih karakteristika i kolskog uspjeha uenika srednjih kola.
Umjesto na populaciji koju ine svi uenici srednjih kola, istraivanje je provedeno na
uzorku. Obzirom da istraiva namjerava zakljuivati o populaciji na osnovu podataka prikupljenih
na uzorku, nuno je na pravilan nain formirati uzorak. U protivnom, mogunost generalizacije
rezultata istraivanja bit e ograniena. Uzorak je mogao biti formiran tako da svaki uenik iz
populacije ima podjednake anse da bude ukljuen u istraivanje. Meutim, istraiva se odluio da
metodom sluajnog odabira izabere odreeni broj kola iz itave drave, i da u tako izabranim
kolama ispita sve uenike.
Istraiva je, izmeu ostalih podataka, prikupio podatke o stepenu strune spreme majke,
radnom statusu majke i broju lanova porodice, te o dobi i spolu uenika. U tabeli 1.2.1. prikazani su
podaci za pet uenika. Spol, kola, stepen strune spreme, radni status i broj lanova domainstva su
diskretne (diskontinuirane) varijable. Vrijednosti varijable radni status jasno su odijeljene u tri
kategorije: zaposlen, nezaposlen i penzioner. Dob i prosjeni kolski uspjeh su kontinuirane
varijable. Dob ispitanika moe biti 16,7 (to odgovara uzrastu od 16 godina i 8 mjeseci), ali se moe
jo preciznije izraziti vrijednou 16,69. Mjerni (kvantitativni) podaci su dob, prosjeni kolski
uspjeh, broj lanova domainstva, dok su spol, kola, struna sprema i radni status kategorijalni
podaci. Vrijednosti kategorijalnih podataka izraavamo frekvencijama ili procentima za svaku
kategoriju (npr. u istraivanju je uestovalo 52% djevojica i 48% djeaka). Nominalne varijable su
kola, spol i radni status. Dob je jedina varijabla mjerena racio skalom mjerenja. kolski uspjeh i
broj lanova domainstva predstavljaju varijable mjerene rang skalom mjerenja.
UENIK
KOLA
SPOL
PROSJENI
STEPEN
DOB
KOLSKI
STRUNE
SPREME
SSS
RADNI
BROJ LANOVA
STATUS
DOMAINSTVA
zaposlen
15,2
USPJEH
2,5
14,5
3,7
VSS
nezaposlena
50
15,0
4,0
OS
zaposlena
275
16,7
2,0
SSS
penzioner
350
17,1
4,7
SSS
nezaposlena
ZADACI
1. U tabeli ispod prikazan je dio podataka dobivenih u hipotetikom istraivanju. Koje varijable su
kategorijalne, a koje kvantitativne? Koje su vrijednosti svake od varijabli?
PACIJENT
SPOL
DOB
DIJAGNOZA
AB
Srednja dob
CR
NT
VRSTA
TRAJANJE
TERAPIJE
TERAPIJE
(U
MJESECIMA)
Anksiozni poremeaj
Kbt
10
Starija dob
Fobija
Kbt
Starija dob
Anksiozni poremeaj
Getalt
SQ
Mlaa dob
Depresivnost
Getalt
TW
Starija dob
Depresivnost
Taa
15
DA
NE
DA
NE
DA
NE
d. Na omjernim skalama, vei broj uvijek znai vie pojave koja se mjeri.
DA
NE
DA
NE
DA
NE
DA
NE
DA
NE
DA
NE
Zamislite da ispred sebe imate podatke o kolskom uspjehu i pokazateljima socioekonomskog statusa za vie od 2000 uenika. ta bi mogli zakljuiti na osnovu podataka? Ko
postie bolji kolski uspjeh: djeaci ili djevojice? U kakvom je odnosu kolski uspjeh i stepen
obrazovanja roditelja? Od samih podataka prikupljenih tokom istraivanja zapravo nemamo mnogo
koristi. Podaci koji nisu sistematizirani i ureeni nazivaju se sirovi podaci.
Podatke je potrebno organizirati i prikazati tako da ih moemo opisati, analizirati,
interpretirati. U tu svrhu koristimo numerike i grafike postupke pomou kojih organiziramo i
reprezentiramo podatake na jasan, ekonomian i razumljiv nain. Numerikim postupcima
izraunavamo odreene vrijednosti kojima opisujemo uzorak; izraunate vrijednosti nazivamo
statisticima. Numeriki postupci pruaju precizne i objektivne informacije o podacima. Grafikim
postupcima vizuelno predstavljamo podatke. Za razliku od numerikih postupaka, oni ukljuuju
detaljnije informacije o nekim karakteristikama podataka, npr. obliku distribucije.
Izbor naina prikazivanja podataka zavisi od koritene skale mjerenja. Kategorijalne podatke
grafiki predstavljamo u stupastim i torta dijagramima. Numerike podatke moemo predstaviti
kroz tabelarni prikaz distribucije frekvencija, stablo i listovi (engl. steam and leaf) i box-plot prikaz. Numeriki podaci grafiki se prikazuju pomou histograma i procentualne kumulativne krive.
U primjerima koji slijede prikazani su najee koriteni grafiki i tabelarni postupci
organiziranja i prikazivanja podataka.
PRIMJER 2.1
Na grupi od 100 ispitanika primjenjen je Test ope informiranosti. Podaci (broj tanih
odgovora) prikazani su ispod.
24
27
32
20
20
15
20
20
19
22
18
22
27
28
15
20
14
24
24
19
24
30
25
19
21
13
20
22
20
19
20
25
24
26
21
19
16
22
22
14
12
25
25
12
17
19
21
18
14
15
17
18
18
17
15
20
19
22
16
19
12
24
17
10
21
21
14
19
22
16
21
20
22
15
21
22
16
18
22
30
27
21
17
25
19
20
19
19
15
27
20
24
21
16
18
16
19
16
Podatake emo poredati po veliini, a zatim za svaki odrediti koliko se puta pojavljuje.
Uvrtavanjem ovih vrijednosti u tabelu, podatke emo urediti u vidu tabele distribucije frekvencija
negrupiranih podataka (tabela 2.1.1).
10
12
13
14
15
16
17
18
19
13
20
12
21
22
10
24
25
26
27
28
30
32
10
6-9
10-13
14-17
22
18-21
40
22-25
22
26-29
30-33
total
100
7,5
11,5
15,5
19,5
22,5
27,5
31,5
35,5
11
rf
rf(%)
cf
rcf
rcf(%)
6-9
0,02
2,0%
0,02
2,0%
10-13
0,05
5,0%
0,07
7,0%
14-17
22
0,22
22,0%
29
0,29
29,0%
18-21
40
0,40
40,0%
69
0,69
69,0%
22-25
22
0,22
22,0%
91
0,91
91,0%
26-29
0,06
6,0%
97
0,97
97,0%
30-33
0,03
3,0%
100
100,0%
total
100
100%
17,7; 29
5,5; 0 9,5; 2
0,0
5,0
10,0
13,5; 7
15,0
20,0
25,0
30,0
35,0
40,0
X
12
PRIMJER 2.2
U tabeli ispod prikazani su podaci prikupljeni od 29 pacijenata koji se lijee na Pedijatrijskoj
klinici. Prikupljeni su podaci za dob pacijenta (izraena u godinama), spol (1-djeaci; 2-djevojice),
tjelesnu teinu TTEZ (u kg), puls i sistolni krvni pritisak SKP. U ovom primjeru, podatke emo
organizirati i predstaviti na razliite naine zavisno od tipa varijabli.
Tabela 2.2.4: Podaci za dob, spol, tjelesnu teinu TTEZ (u kg), puls i sistolni krvni pritisak SKP
r/br.
DOB
SPOL
TTEZ
PULS
SKP
r/br
DOB
SPOL
TTEZ
PULS
SKP
0,3
90
65
16
5,4
22
100
100
0,2
178
65
17
6,5
23
96
99
0,3
140
87
18
12,7
51
79
109
0,3
120
60
19
10,1
24
93
104
0,3
155
65
20
16,2
52
74
101
0,3
150
70
21
15,6
35
100
128
0,3
156
65
22
9,4
28
88
86
0,6
163
88
23
15,3
45
90
100
0,9
128
105
24
9,1
45
110
112
10
1,1
110
95
25
9,7
30
90
110
11
5,1
28
160
99
26
9,4
20
160
99
12
1,5
10
110
86
27
12,2
25
100
112
13
2,2
12
110
95
28
6,0
20
117
115
14
1,5
10
110
86
29
16,0
47
81
128
15
1,5
12
110
86
Varijabla SPOL je kategorijalna, i stoga su podaci prikazani u obliku torta dijagrama (slika
2.2.3). Kategorije varijable spol (djevojice i djeaci) oznaene su na razliit nain. Pored svake
kategorije naveden je broj podataka.
Slika 2.2.3. Spolna zastupljenost ispitanika
14
15
djevojice
13
djeaci
(9)
(2)
(2)
10
12
(2)
15
(2)
16
(2)
(4)
(1)
(4)
(1)
U zagradama su prikazane frekvencije listova, tj. broj podataka za svaku vrijednost stabla.
Stablo i listovi prikaz omoguava vizuelnu impresiju o distribuciji podataka. Ako zamislimo da
prikaz rotiramo za 90 u smjeru obrnutom od smjera kazaljke na satu, dobit emo prikaz koji je
veoma slian ipkastom dijagramu. Iz prikaza moemo vidjeti da je najvei broj pacijenata mlaih
od godinu dana (ukupno devet), zatim onih sa devet godina (4 pacijenta) itd.
Varijabla TJELESNA TEINA je kontinuirana. Stoga distribuciju podataka ove varijable
moemo predstaviti pomou stablo i listovi prikaza. Vrijednosti varijable izraene su kao cijeli
brojevi sa jednom ili dvije cifre. Stoga u stablo i listovi prikazu 2|4 znai 24 kg, dok 0|6 znai 6
kg. U tabeli 2.2.6 dat je stablo i listovi prikaz vrijednosti tjelesne teine.
Tabela 2.2.6. Stablo i listovi prikaz tjelesne teine
0
znai 3 kg
znai 20 kg
(10)
(4)
(8)
(2)
(3)
(2)
14
Podaci dobiveni mjerenjem pulsa ispitanika najprije su grupirani u razrede. Formirano je est
razreda (prvi od 61 do 80, zadnji od 161 do 180), nakon ega su odreeni podaci koji pripadaju
svakom razredu. Tabelarni prikaz distribucije frekvencija rezultata grupiranih u razrede prikazan je u
tabeli 2.2.7). Na slian nain formirana je distribucija frekvencija rezultata grupiranih u razrede
varijable sistolni krvni pritisak (tabela 2.2.8).
Tabela 2.2.7: Distribucija frekvencija rezultata varijable PULS
Razred
61-80
81-100
10
101-120
121-140
141-160
161-180
60-69
70-79
80-89
90-99
100-109
110-119
120-129
PRIMJER 2.3
Trei razred 1. Osnovne kole broji ukupno 25 uenika. Na pitanje Koji vam je omiljeni
kolski predmet?, troje uenika navelo je biologiju, petoro geografiju, estoro historiju, dvoje
matematiku, etvoro tjelesni odgoj, troje fiziku, jedno likovnu kulturu i jedno hemiju. Dobivene
podatke naprije emo tabelarno prikazati (tabela 2.3.9). U prvi stupac tabele unijeti su predmeti, a u
drugi broj uenika koji su navedene predmete naveli kao omiljene.
15
Tabela 2.3.9: Podjela uenika IIIc odjeljenja prema preferiranom kolskom predmetu
Preferirani kolski predmet
Biologija
Geografija
Historija
Matematika
Tjelesni odgoj
Fizika
Likovna kultura
Hemija
total
25
6
4
F iz ika
F iz i ko v.
Matematika
Is torija
B iologija
G eografija
H emija
L ikovno v.
P referirani predmet
134
136
135
139
135
137
133
138
136
136
134
135
136
134
137
135
132
135
134
135
137
135
132
136
16
131
132
133
134
135
136
137
138
139
total
25
(1)
13
13
13
13
13
13
13
(1)
13
(1)
13
znai 131 cm
13
znai 138 cm
(2)
(1)
(4)
5
(7)
(5)
(3)
Iz Tabele 2.3.10 moemo vidjeti da je najnii uenik u razredu visok 131 cm, a najvii 139
cm. Dakle utvreni raspon rezultata je 8 (139 131). Obzirom da je utvreni raspon rezultata mali,
te da imamo relativno mali broj ispitanika (N=25), tj. da ve na temelju tabele 2.3.10 imamo dobar
pregled distribucije, rezultate nije potrebno grupirati u razrede. Tabeli 2.3.10 dodat emo vrijednosti
relativnih i kumulativnih frekvencija [rf, rf (%), cf, rcf i rcf (%)] koje e nam omoguiti dodatne
informacija o distribuciji visina uenika (tabela 2.3.12).
Iz tabele 2.3.12 mogli bismo izvui zakljuak da je 20% uenika visoko 136 cm procenat
rezultata u tom razredu [rf(%)] je upravo 20. Ipak, preciznije bi bilo rei da je 20% uenika visoko
17
izmeu 135,5 i 136,5 cm. Naime, zbog nepreciznosti naeg mjerenja (tj. zaokruivanja rezultata na
cijeli cm), visina uenika koji su visoki izmeu 135,5 i 136,5 cm bit e registrirana kao visina od
136 cm. Dakle, iako je prikazani rezultat 136 cm, stvarni rezultat kree se u intervalu omeenom
stvarnom donjom granicom 135,5 cm i stvarnom gornjom granicom 136,5 cm.
f
1
2
1
4
7
5
3
1
1
25
rf
0,04
0,08
0,04
0,16
0,28
0,2
0,12
0,04
0,04
1
rf(%)
4
8
4
16
28
20
12
4
4
100
cf
1
3
4
8
15
20
23
24
25
rcf
0,04
0,12
0,16
0,32
0,6
0,8
0,92
0,96
1
rcf(%)
4
12
16
32
60
80
92
96
100
Nadalje, iz tabele 2.3.12 moemo zakljuiti da je 40% uenika visoko najmanje 136 cm
(preciznije 135,5 cm) ukoliko saberemo procenat uenika sa visinom jednakom ili veom od 136
cm dobit emo upravo 40 procenata distribucije.
Podatke moemo predstaviti i pomou ogive (slika 2.3.5)
S lika 2.3.5. D is tribuc ije relativ nih kumulativ nih frekv enc ija (u
proc entima)
rc f (% )
100
92 %
80
80 %
60
60 %
40
20
0
96 %100 %
32 %
12 %
16 %
4%
0%
130,5 131,5 132,5 133,5 134,5 135,5 136,5 137,5 138,5 139,5
Vis ina u enika IIIc odjeljenja (c m)
PRIMJER 2.4
Odreivanje centila i decila ilustrirat emo na primjeru 2.1. Odredit emo: a) u koji centil
pada rezultat 22, b) rezultat koji pada na 25 centil, c) centil rezultata 19, d) rezultat koji odgovara 60
centilu i e) granice 7. decila. Za odreivanje zadatih vrijednosti koristit emo tabelu 2.1.3 i grafiki
prikaz distribucije relativnih kumulativnih frekvencija (slika 2.1.2).
a)
Npr. ako je meu 90 rezultata neki rezultat 40 po redu, onda se taj rezultat nalazi u: (40/90) x
100 = 44. centilu.
Kod rezultata grupiranih u razrede centil se odreuje prema sljedeoj formuli:
centil RKFD (X D)
RFR
i
gdje je:
X rezultat za koji traimo centil,
RKFD relativna kumulativna frekvencija (%) rezultata ispod razreda u kojem je
rezultat X,
D prava donja granica razreda u kojem se nalazi rezultat X,
i interval,
RFR relativna frekvencija (%) rezultata u razredu u kojem se nalazi rezultat X.
Nakon to odredimo poznate vrijednosti: X=22; RKFD=69,0; D=21,5; i=4; RFR=22,0, i uvrstimo
ih u izraz, izraunat emo centil rezultata X=22:
centil RKFD (X D)
RFR
22,0
69,0 (22 21,5)
71,75
i
4
Moemo zakljuiti da se ispod rezultata X=22 (ukljuujui i rezultat 22) nalazi 71,75% rezultata
(tj. ispitanika), dok se iznad ovog rezultata nalazi 28,25% rezultata (tj. ispitanika).
19
b)
fR
gdje je:
Centil zadati centil
D prava donja granica razreda u kojem je rezultat X,
fD ukupan broj rezultata ispod razreda u kojem je rezultat X,
fR broj rezultata u razredu u kojem je rezultat X,
i interval.
Nakon to odredimo poznate vrijednosti: Centil=25; D=13,5; fD=7; fR=22; i=4, i uvrstimo ih u
izraz, izraunat emo rezultat koji pada na 25 centil:
centil N
i
25 100
4
X D
fD 13,5
7
16,77
100
fR
100
22
Rezultat 16,77 dijeli distribuciju na dva dijela, tako da je ispod ovog rezultata 25% rezultata (tj.
ispitanika), a iznad 75%.
c)
Za odreivanje centila rezultata X=25 koristi emo grafiki prikaz distribucije relativnih
kumulativnih frekvencija (slika 2.4.7) Sa apscise emo povui okomitu liniju od take koja pada na
X=25, do mjesta presjeka za procentualnom ogivom. Zatim emo od ove take povui liniju
paralelnu sa apscisom, do ordinate. Taka u kojoj ova linija sjee ordinatu odgovara traenom
centilu. Tako je Centil 90%
d)
Za odreivanje rezultata koji odgovara 60. centilu koristi emo procentualnu ogivu (slika 2.4.7).
Sa ordinate emo povui okomitu liniju od take koja pada na rcf%=60, do mjesta presjeka sa
procentualnom ogivom. Zatim emo od ove take povui liniju paralelnu sa ordinatom, do apscise.
Taka u kojoj ova linija sjee apscisu odgovara traenom rezultatu. Tako je X 20.
20
17,7; 29
5,5; 0 9,5; 2
0,0
5,0
10,0
13,5; 7
15,0
20,0
25,0
30,0
35,0
40,0
X
e)
Sedmi decil poinje sa 60-im a zavrava sa 69,99-im centilom. Stoga je potrebno odrediti
rezultate koji padaju u 60 i 69,99 centil.
centil N
i
60 100
4
X 60 centil D
fD 17,5
29
20,6
100
f
100
40
centil N
i
69,99 100
4
X 69,99 centil D
fD 17,5
29
21,6
100
100
fR
40
PRIMJER 2.5
Kantonalni Zdravstveni zavod Sarajevo proveo je istraivanje sa ciljem utvrivanja
karakteristika populacije pacijenata sa dijagnosticiranom hipertenzijom te utvrivanja naina na koji
lijenici ope prakse tretiraju ove pacijente. Anketiranje je provedeno na reprezentativnom uzorku
od 300 pacijenata iz Kantona.
Na priloenim graficima prezentirani su dobiveni rezultati istraivanja prema pojedinim
varijablama.
21
46%
54%
ene
Mu karc i
Naredni skup podataka odnosi se na starosnu strukturu pacijenata. Starosna strukura ispitanika
je kvantitativna varijabla iako ispitanike razvrstavamo u jednu od kategorija prema njihovoj
starosnoj dobi, na temelju pripadnosti odreenoj kategoriji, ispitanici mogu dobiti i odgovarajui
rang. Tako, npr., svi ispitanici mlai od 30 godina e dobiti rang 1, ispitanici starosti od 31 do 40
godina rang 2, ispitanici u narednoj starosnoj skupini rang 3...
35
30
25
20
15
10
5
0
Is pod 30 od 31 do O d 41 do O d 51 do O d 61 do O d 71 do P reko 81
god.
40 god. 50 god. 60 god. 70 god. 80 god.
god.
D obna kategorija
Prilikom utvrivanja procenata pacijenata pojedinih starosnih uzrasta koji su upueni lijeniku
specijalisti (slika 2.5.9) ponovo smo se koristili mjerenjem na nominalnoj skali ispitanici su
svrstani u jednu od dvije kategorije: Upuen specijalisti/ Nije upuen specijalisti, a potom je u
svakoj od kategorija utvren broj ispitanika.
22
D obna kategorija
158.69 m m /H g
P ac ijent je
upud en
s pec ijalis ti
94,31 m m /H g
143.21 m m /H g
P ac ijent nije
upud en
s pec ijalis ti
0,00
89,43 m m /H g
50,00
100,00
mm/Hg
23
150,00
200,00
P ros je na
vrijednos t
s is toli kog
pritis ka
P ros je na
vrijednos t
dijas toli kog
pritis ka
ZADACI
85
100
114
93
89
126
76
142
104
68
73
109
82
97
79
116
121
84
100
93
74
95
113
96
83
70
110
69
91
<15
16
16-19
25
20-29
40
30-39
47
40-49
50
50-59
45
> 60
9,7
12,1
14,1
15,9
9,7
12,4
14,5
16
10,3
12,6
14,6
16,4
10,9
12,8
14,6
16,5
10,9
13
14,8
16,6
11,4
13,1
14,9
16,7
11,4
13,2
15,1
16,8
11,4
13,7
15,1
16,8
11,7
13,8
15,3
16,9
1
2
2
35
24
3
240
4
150
5
93
broj golova
1-15
16-30
31-45
46-60
61-75
15
76-90
20
mukarci
48
2559
11113455666899
22368
stem
6
7
8
9
7. VIa razred Osnovne kole Sigmund Freud broji ukupno 25 uenika. Na pitanje Koji vam je
omiljeni kolski predmet?, uenici su dali sljedee odgovore: njih troje navelo je maternji jezik,
etvoro hemiju, petoro tjelesni odgoj, dvoje matematiku, estoro historiju, dvoje fiziku, jedno
tehniki odgoj i dvoje geografiju.
a. Predstavite ove podatke tabelarno. Navedite procenat sluajeva za svaku kategoriju.
b. Podatke predstavite grafiki pomou stupastog dijagrama.
25
158
158
153
141
134
152
148
134
145
158
142
137
152
148
134
140
153
155
146
152
138
137
141
152
a.
b.
c.
d.
e.
25
26
27
28
29
30
31
32
20
25
26
27
28
29
30
31
32
23
25
26
27
28
29
30
32
35
24
25
27
27
29
29
30
32
35
25
26
27
27
29
29
31
32
35
39
27
32
30
28
26
24
broj uenika
22
20
18
djeaci
16
djevojice
14
12
10
8
6
4
2
0
Prirodne
nauke
Matematika Drutvene
nauke
Jezik i
Umjetnost
Sport
Ostalo
knjievnost
oblasti
Koliko je djeaka, a koliko djevojica predloeno za pojedine oblasti? Za koju oblast je bilo
najvie prijedloga, a za koju najmanje?
17. Studenti su tokom mjesec dana vodili dnevnik spavanja. Izmeu ostalih vrijednosti, u dnevnik su
unosili podatke o vremenu kada idu na spavanje, vremenu kada se bude, duini spavanja, broju
snova i vrsti snova (radi jednostavnosti, pretpostavimo da su trebali odrediti da li je san bio
prijatan ili neprijatan). Na koji nain se prikupljeni podaci mogu prikazati?
28
Medijana (centralna vrijednost) je vrijednost koja distribuciju dijeli na dva jednaka dijela, tj.
vrijednost koja se u nizu podataka poredanih po veliini nalazi tano u sredini. Poloaj medijane
odreujemo preko izraza:
Poloaj medijane = (N+1)/2
U skupu podataka: x=(2,7,4,5,6,7,2), poloaj medijane je (7 + 1)/2 = 4, to znai da se centralna vrijednost
nalazi na etvrtom mjestu niza rezultata poredanih po veliini:
x=(2,2,4,5,6,7,7)
Centralna vrijednost iznosi: C = 5
Aritmetika sredina je suma svih rezultata podijeljena brojem rezultata. Aritmetika sredina
predstavlja teite rezultata i stoga je osjetljiva na ekstremne vrijednosti rezultata. Aritmetika
sredina odreuje se prema izrazu:
M= X/N
Za skup podataka: x=(2,7,4,5,6,7,2), aritmetika sredina iznosi: M=(2+7+4+5+6+7+2)/7=4,71
29
Kod simetrine, unimodalne distribucije mod, medijana i aritmetika sredina bit e priblino
jednake vrijednosti.
Izbor mjera centralne tendencije zavisi od skale mjerenja i oblika distribucije. Ako je
koritena nominalna skala mjerenja kao mjeru centralne tendencije koristimo mod, dok kod
ordinalnih skala mjerenja koristimo medijanu. Kada su podaci dobiveni na intervalnoj ili racio skali
mjerenja, kao mjeru centralne tendencije koristimo aritmetiku sredinu, ali samo ukoliko je
distribucija simetrina; u protivnom koristimo medijanu. Ispod je dat shematski prikaz izbor mjera
centralne tendencije.
Koja skala
mjerenja je
koritena?
Nominalna
Ordinalna
Mod
Medija
na
Intervalna
ili racio
ne
Da li je
distribucija
simetrina?
da
Aritmetika sredina
Distribucija je asimetrina ako je vei broj podataka koncentriran na jednoj strani skale, a
manji broj na drugoj strani. Kod pozitivno asimetrine distribucije relativno je vei broj niih
vrijednosti, a kod negativno asimetrine distribucije relativno je vei broj viih vrijednosti.
30
1
0
0
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13
9 10 11 12 13
N
(Xi M)
skjunis
N - 2 (N 1) s 3
31
PRIMJER 3.1
Na grupi od 20 ispitanika primjenjen je Test znanja iz statistike. Rezultati (broj tanih
odgovora) prikazani su ispod.
24
27
32
20
20
15
20
20
19
22
18
22
27
28
15
20
14
24
24
19
14
15
18
19
20
22
24
27
28
32
total
20
1. Mod
Rezultat koji se najuestalije pojavljuje je 20 (pet puta). Prema tome:
Mod = 20
32
2. Medijana
U tabeli distribucije negrupiranih rezultata, rezultati su ve poredani po veliini. Poziciju
medijane odredit emo preko izraza: (N+1)/2.
Poloaj medijane = (20+1)/2 = 10,5
Medijana se nalazi na 10,5 mjestu, tj. na polovini rastojanja izmeu 10 i 11 mjesta. Rezultat
19 nalazi se na estom mjestu, a rezultat 20 od sedmog do jedanaestog mjesta (ukupno je pet
rezultata 20). Na dvanaestom i trinaestom mjestu je rezultat 22, itd. Budui da 10. i 11. mjesto
zauzima jedan te isti rezultat, X=20, medijana iznosi upravo toliko, tj.
C = 20
3. Aritmetika sredina
Aritmetiku sredinu odredit emo preko izraza:
M
X
N
S obzirom da se pojedini rezultati pojavljuju vie puta, gornjem izrazu dodat emo vrijednosti
frekvencija i dobiti sljedeu formulu:
fX
i
14 1 15 2 18 1 19 2 20 5 22 2 24 3 27 2 28 1 32 1
20
33
PRIMJER 3.2
Za podatke iz primjera 2.1 odredite aritmetiku sredinu i medijanu. Tabeli distribucije
grupiranih rezultata dodat emo vrijednosti sredine razreda (X'), a zatim pomnoiti svaku sredinu
razreda sa frekvencijom pripadajueg razreda (tabela 3.2.1).
Tabela 3.2.1. Distribucije frekvencija grupiranih podataka
razred
fX
6-9
7,5
15
10-13
11,5
57,5
14-17
22
15,5
341
18-21
40
19,5
780
22-25
22
23,5
517
26-29
27,5
165
30-33
31,5
94,5
fi= 100
f iXi=1970
fX
i
1970
19,7
100
(napomena: fi = N)
Medijanu moemo odrediti na dva naina: raunskim postupkom ili oitavanjem iz grafikog
prikaza.
Za izraunavanje medijane potrebno je formirati distribucije kumulativne i procentualne
relativne kumulativne frekvencije (tabela 3.2.2).
34
cf
rcf(%)
6-9
2%
10-13
7%
14-17
22
29
29%
18-21
40
69
69%
22-25
22
91
91%
26-29
97
97%
30-33
100
100%
total
100
fR
Medijana se nalazi u razredu 18-21 jer se do prave gornje granice ovog razreda nalazi 69%
rezultata. Prava donja granica ovog razreda je D=17,5; u ovom razredu nalazi se fR=40 rezultata; do
razreda 18-21 ukupno je fD=29 rezultata; interval razreda iznosi i=4. Centil centralne vrijednosti je
50-i.
Nakon to uvrstimo vrijednosti u formulu:
50 100
4
C 17,5
29
100
40
35
rfc% 100
90
80
70
60
50
40
30
20
10
0
21,5; 69
17,7; 29
5,5; 0 9,5; 2
0,0
5,0
10,0
13,5; 7
15,0
20,0
25,0
30,0
35,0
40,0
X
Rezultat koji odgovara 50-om centilu iznosi neto malo vie od 19,5. itav postupak radi se na
milimetarskom papiru na kojem moemo oitati tanu vrijednost. Kada bi tako uradili, uvjerili
bismo se da se radi o rezultatu C=19,6, kojeg smo dobili i raunskim putem.
Obzirom da su vrijednosti aritmetike sredine i medijane podjednake (MC), moemo
zakljuiti da je distribucija rezultata simetrina. Zaista, uvidom u oblik histograma primjeujemo da
je oblik distribucije simetrian (slika 2.1.1).
PRIMJER 3.3
Za varijablu DOB iz primjera 2.2 odredit emo mod, medijanu i aritmetiku sredinu. Za
odreivanje mjera centralne tendencije koristit emo stablo i listovi prikaz (tabela 3.3.1).
Tabela 3.3.1 Stem and leaf prikaz dobi pacijenata
(9)
(2)
(2)
10
12
(2)
15
(2)
16
(2)
(4)
(1)
(4)
(1)
= 29
36
1.
Mod
Iz stablo i listovi prikaza odredit emo rezultat koji se javlja najvei broj puta. Za vrijednost
stabla 0, frekvencija je 9. Vrijednost lista 3 javlja se est puta. Moemo zakljuiti da je:
Mod = 0,3
2.
Medijana
U prikazu rezultati su poredani po veliini (od 0,2 do 16,2). Poloaj medijane odreujemo
preko izraza (N+1)/2. Medijana se nalazi na 15 mjestu. Petnaesto mjesto odredit emo
sabiranjem broja listova za pojedine vrijednosti stabla, sve dok zbir ne bude 15 ili dok ne
preemo vrijednost 15. Dakle, 9 (za 0) + 4 (za 1) + 1 (za 2) + 2 (za 5), to iznosi 16. Na 16.
mjestu nalazi se vrijednost 5,4. Jedno mjesto ispod, tj. na 15. mjestu, nalazi se vrijednost 5,1.
Dakle:
C = 5,1
3.
Aritmetika sredina
Aritmetiku sredinu izraunat emo koristei formulu: M=X/N. Uvrtavanjem vrijednosti u
formulu, dobit emo da aritmetika sredina iznosi:
M = 5,9
Izraunate vrijednosti mjera centralne tendencije se razlikuju. Najvea razlika je izmeu moda
i ostale dvije mjere. Koju emo mjeru centralne tendencije izabrati ako skup podataka elimo
numeriki opisati? Iz stem and leaf prikaza moemo vidjeti da je oblik distribucije asimetrian.
Dakle, aritmetika sredina nije najbolji izbor. Mod takoer ne bi adekvatno reprezentirao skup
podataka jer se vrijednost 0,3 javlja samo est puta, to je malo u odnosu na ukupan broj podataka.
Najbolji reprezentant podataka je medijana.
PRIMJER 3.4
Za visine uenika IIIc odjeljenja, potrebno je utvrditi deskripitive vrijednosti mod, medijanu i
aritmetiku sredinu. U tu svrhu koristit emo tabelu 3.4.1.
37
1.
Visina uenika
(cm)
rf
rf(%)
cf
rcf
rcf(%)
131
0,04
0,04
132
0,08
0,12
12
133
0,04
0,16
16
134
0,16
16
0,32
32
135
0,28
28
15
0,6
60
136
0,2
20
20
0,8
80
137
0,12
12
23
0,92
92
138
0,04
24
0,96
96
139
0,04
25
100
25
100
Mod
Rezultat sa najveom frekvencijom je X=135. Prema tome:
Mod = 135
2.
Medijana
Obzirom da su u Tabeli 3.4.1 rezultati poredani prema veliini (od 131 cm do 139 cm),
vrijednost medijane moemo utvrditi prema formuli za utvrivanje njenog poloaja u skupu
podataka (N+1)/2. Medijana se nalazi na 13. mjestu u nizu podataka poredanih prema veliini.
Uvidom u distribuciju kumulativnih frekvencija (cf) vidimo da rezultat 135 zauzima pozicije
od 9. do 15. mjesta. Prema tome, rezultat koji se nalazi na 13. mjestu i koji predstavlja
medijanu distribucije takoer iznosi 135 cm.
Do istog zakljuka smo mogli doi i uvidom u distribuciju kumulativnih relativnih frekvencija
u procentima [crf (%)]. Vidimo da je zakljuno sa rezultatom 134 u distribuciji akumulirano
32% rezultata. Ukljuenjem rezultata 135 akumulira se dodatnih 28%, tj. ukupno 60%
rezultata. Dakle, rezultat koji dijeli distribuciju na pola (50% donjih i 50% gornjih rezultata) je
upravo rezultat 135.
38
3.
Aritmetika sredina
Aritmetika sredina iznosi:
M
fX
i
3377
135,08
25
39
PRIMJER 3.5
Nastavnik matematike u koli Grbavica II dao je uenicima treih razreda test iz
matematike, na kojem su uenici ostvarili rezultate (izraene kao broj skupljenih bodova, pri emu je
maksimalana broj bodova na testu iznosio 50) prikazane u tabeli grupiranih rezultata (tabela 3.5.1).
rf
rf (%)
cf
crf
crf (%)
0-4
0,07
7,14
0,07
7,14
5-9
0,00
0,00
0,07
7,14
10-14
0,00
0,00
0,07
7,14
15-19
0,00
0,00
0,07
7,14
20-24
0,00
0,00
0,07
7,14
25-29
0,00
0,00
0,07
7,14
30-34
0,00
0,00
0,07
7,14
35-39
0,00
0,00
0,07
7,14
40-44
0,00
0,00
0,07
7,14
45-49
0,00
0,00
0,07
7,14
50-54
0,00
0,00
0,07
7,14
55-59
0,00
0,00
0,07
7,14
60-64
0,00
0,00
0,07
7,14
65-69
0,09
9,18
16
0,16
16,33
70-74
13
0,13
13,27
29
0,30
29,59
75-79
61
0,62
62,24
90
0,92
91,84
80-84
0,07
7,14
97
0,99
98,98
85-89
0,01
1,02
98
1,00
100,00
98
100
Nastavnik je odluio izraunati mjeru centralne tendencije koja najbolje reprezentira prosjenu
vrijednost. Izraunao je medijanu i aritmetiku sredinu.
1.
Medijana
Iz gornje tabele moe se zakljuiti da je 50% distribucije akumulirano u razredu sa graninim
vrijednostima 75 i 79 (do donje stvarne granice ovog razreda nalazi se 29,59% rezultata u
distribuciji, a do njegove gornje stvarne granice 91,84%; dakle, taka u kojoj se distribucija
40
dijeli na pola je negdje u intervalu izmeu rezultata 75 i 79). Na taj nain dobijamo vrijednosti
potrebne za formulu za odreivanje centralne vrijednosti (tj. 50. centila).
5
50 98
C 74,5
29
76,14
100
61
2.
Aritmetika sredina
Kako bi izraunao aritmetiku sredinu rezultata, nastavnik je svaki pojedini razred u grupiranoj
distribuciji predstavio njegovom srednjom vrijednou, koju je potom pomnoio sa
frekvencijom razreda, konano sumirajui dobivene vrijednosti.
Xf
0-4
14
5-9
10-14
12
15-19
17
20-24
22
25-29
27
30-34
32
35-39
37
40-44
42
45-49
47
50-54
52
55-59
57
60-64
62
65-69
67
603
70-74
72
13
936
75-79
77
61
4697
80-84
82
574
85-89
87
87
98
6911
total
41
Koristei formulu:
M
fX
i
42
ZADACI
1. Ispod su prikazane vrijednosti ekstraverzije za 30 uenika.
20
10
14
20
15
15
15
15
15
23
16
16
17
17
18
21
18
19
19
20
20
20
14
21
18
21
23
23
16
13
0-4
5-9
14
10-14
12
15-19
20-24
43
f 16
15
14
13
12
11
10
9
8
7
6
5
4
3
2
1
0
0
12
17
22
27
32
37
x
5. Na osnovu distibucije grupiranih rezultata iz zadatka 3.4 grafikim putem odredite medijanu.
6. U tabeli ispod navedene su bosanskohercegovake rijeke i duine njihovih tokova (u km).
Rijeka
Sava
331
Una
212
Unac
58
Sana
140,4
Vrbas
192
Vrbanjka
70,5
Ukrina
53,3
Bosna
271
Krivaja
65,5
Sprea
112,3
Usora
77
Tolisa
56,2
Tinja
69
Drina
346
ehotina
33
Lim
40
Praa
57
Drinjaa
78,5
Janja
53,3
Neretva
218
Trebinjica
96,5
44
Koliko iznosi prosjena duina toka gore navedenih rijeka? Izraunajte aritmetiku sredinu i
medijanu. Koju mjeru centralne tendencije biste izabrali za odgovor na pitanje o prosjenoj
duini toka gore navedenih rijeka?
7. U tabeli ispod navedena su povrine bosanskohercegovakih jezera (u km2).
Jezero
Povrina (u km2)
Buko
55,8
Blidnje
3,2
Borako
0,26
Jablaniko
13,3
Modrac
17,1
Plivsko
1,15
Peruako
12,4
Ramsko
15,3
Zvorniko
8,1
45
Broj bodova na
testu iz fizike
25
26
27
28
29
30
33
34
35
36
10
37
19
38
19
39
40
41
45
total
98
46
Mjesena primanja
Mjesena primanja
majki uenika (KM)
350
950
400
1.000
450
1.050
500
1.100
550
1.150
600
1.200
650
1.250
700
1.350
750
1.400
800
7.550
850
8.000
900
13
10.600
132
119
126
110
122
121
130
113
123
114
123
117
124
120
129
114
123
117
124
119
125
124
118
125
120
128
119
127
116
47
10
11
12
13
14
15
Prije
43
20
17
30
25
19
34
28
23
41
26
40
16
23
34
poslije
45
16
20
33
30
19
33
25
26
40
28
36
15
26
32
48
4. Mjere varijabiliteta
Pored tendencije grupiranja podataka oko neke srednje vrijednosti, postoji i tendencija
variranja tj. rasprenja podataka oko srednje vrijednosti. Stoga u numerikoj deskripciji skupa
podataka, pored mjere centralne tendencije koristimo i mjere varijabiliteta. Sljedei primjer ilustrira
nunost da pored mjere centralne tendencije treba odrediti i mjeru varijabiliteta.
U skupovima podataka A i B Mod = C = M = 70.
A:
53 62
70 70
75 78
82
B:
10 20
50 70
70 120
150
Numerika deskripcija na temelju mjere centralne tendencije moe nas navesti na pogrean zakljuak da se
radi o slinim skupovima. Zapravo, podaci se prilino razlikuju. Raspon rezultata skupa B znatno je vei od
raspona rezultata skupa A.
Na osnovu raspona rezultata ne moemo saznati nita o raspodjeli podataka unutar raspona
jer se raspon rauna samo preko ekstremnih vrijednosti.
U skupovima podataka A i B raspon je jednak i iznosi 70. U skupu B vei broj rezultata grupiran je oko
centralne vrijednosti.
A:
10 20
50 60
70 80
B:
10 50
50 50
50 80
Interkvartilni raspon (ili rasprenje) je raspon u kojem se nalazi 50% sredinjih rezultata.
Za razliku od raspona rezultata interkvartilni raspon nije osjetljiv na ekstremne rezultate. Za
49
B:
(X
- M)2
N-1
50
(X
M)2
N1
(X
- M) 2
N-1
(1 4) 2 (2 4) 2 (3 4) 2 (5 4) 2 (6 4) 2 (7 4) 2
5,6
6 1
v=5,6; s=2,37
Standardnu devijaciju statistiki je opravdano raunati kada je: distribucija rezultata normalna
ili barem simetrina i kada je koritena intervalna ili racio skala mjerenja.
Varijabilnost podataka utie na spljotenost distribucije. to je rasprenje vee, spljotenost je
vea i obratno - to je rasprenje manje, spljotenost je manja. S obziron na rasprenost, distribucije
mogu biti platokurtine (spljotene) i leptokurtine (izduene).
Platokurtina
leptokurtina
Kao mjeru spljotenosti (ili izduenosti) distribucije koristimo kurtozis (eng. kurtosis):
kurtozis
N(N - 1)
(Xi M)4 3(N 1)2
(N - 2)(N - 3) (N 1) s 4
(N 2)(N 3)
Maksimalna vrijednost
7
6
Trei kvartil, Q3
Medijana, C
4
3
Prvi kvartil, Q1
2
1
Minimalna vrijednost
52
Mjera varijabiliteta
Koja skala
mjerenja je
koritena?
Nominalna
Broj
Intervalna
ili racio
Ordinalna
ne
SQR
kategorija
Da li je
distribucija
simetrina?
da
Varijanca,
standardna devijacija
53
PRIMJER 4.1
Za podatke iz primjera 1.3 izraunat emo interkvartilni raspon i standardnu devijaciju, a skup
podataka opisat emo sa pet brojeva. Rezultati (broj tanih odgovora na Testu znanja iz statistike)
prikazani su ispod.
24
27
32
20
20
15
20
20
19
22
18
22
27
28
15
20
14
24
24
19
Kao i kod izraunavanja mjera centralne tendencije, podatke emo najprije urediti koristei
distribuciju negrupiranih rezultata (prikazanu u tabeli ispod).
a.
rezultat
14
15
18
19
20
22
24
27
28
32
total
20
Interkvartilni raspon
Skup podataka sastoji se od 20 rezultata. Ovaj skup podijelit emo na dva jednaka dijela:
I dio: 14, 15,15,18,19,19, 20, 20, 20, 20;
II dio: 20, 22, 22, 24, 24, 24, 27, 27, 28, 32
Rezultat koji distribuciju prvog dijela skupa dijeli na dva jednaka dijela iznosi 19 to je prvi
kvartil; rezultat koji drugi dio skupa dijeli na dva jednaka dijela iznosi 24 to je trei kvartil.
Odnosno, Q1=19; Q3=24. Interkvartilni raspon iznosi:
54
QR= Q3 - Q1=24-19=5
IQR=5
b.
Standardna devijacija
(X
M)2
N1
S obzirom da se pojedini rezultati pojavljuju vie puta, gornjem izrazu dodat emo vrijednosti
frekvencija i dobiti sljedeu formulu:
s
fX
f
i
M2
fX
f X2
14
14
196
15
30
450
18
18
324
19
38
722
20
100
2000
22
44
968
24
72
1728
27
54
1458
28
28
784
32
32
1024
fi=20
fiX=430
fi X2=9654
55
c.
Pet brojeva
Pet brojeva: Xmin=14; Xmax=32; C=20; Q1=19; Q3=24
Ispod je dat box-plot prikaz. Iz grafikog prikaza moemo proitati gore navedene vrijednosti,
ali i neke informacije o distribuciji rezultata. Najprije, uoit emo krui, kojim se oznaava
ekstremna vrijednost. Ekstremne vrijednosti potrebno je posebno tretirati, te je njihova
detekcija u deskripciji rezultata izuzetno vana. Linija koja oznaava medijanu smjetena je
znatno blie prvom kvartilu i oigledno je da distribucija nije simetrina. Od prvog kvartila do
medijane udaljenost je: C-Q1=20-19=1. Udaljenost od medijane do treeg kvartila iznosi: Q3C=24-20=4. U rasponu od 19 do 20 nalazi se 25% rezultata (ispod medijane), a isti broj
rezultata nalazi se u rasponu od 20 do 24 (iznad medijane). Dakle, raspon od 4 obuhvata
jednak broj rezultata kao i raspon od 1.
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
56
PRIMJER 4.2
Za podatke iz primjera 3.1 odredite standardnu devijaciju i interkvartilni raspon.
razred
fX
f X2
6-9
7,5
15
112,5
10-13
11,5
57,5
661,3
14-17
22
15,5
341
5286
18-21
40
19,5
780
15210
22-25
22
23,5
517
12150
26-29
27,5
165
4538
30-33
31,5
94,5
2977
fi X2 =40933
fi =100
fX
f
M2
s= 4,61
Interkvartilni raspon iz grupiranih podataka moemo odrediti na dva naina: raunskim
postupkom ili oitavanjem iz grafikog prikaza.
Za izraunavanje prvog i treeg kvartila potrebno je formirati distribucije kumulativne i
procentualne relativne kumulativne frekvencije, to je i uraeno u tabeli ispod.
razred
cf
rcf(%)
6-9
2%
10-13
7%
14-17
22
29
29%
18-21
40
69
69%
22-25
22
91
91%
26-29
97
97%
30-33
100
100%
total
100
57
fR
odnosno,
25 N
i
Q1 D
fD
100
fR
75 N
i
Q3 D
fD
100
fR
gdje je:
Q1, Q3 traeni rezultati (prvi i trei kvartil)
D prava donja granica razreda u kojem je prvi i trei kvartil,
fD ukupan broj rezultata ispod razreda u kojem je prvi i trei kvartil,
fR broj rezultata u razredu u kojem je prvi i trei kvartil,
i interval.
Prvi kvartil nalazi se u razredu 14-17. Prava donja granica ovog razreda je D=13,5; u razredu
se nalazi fR=22 rezultata; do razreda 14-17 ukupno je fD =7 rezultata; interval razreda iznosi i=4.
25 100
4
Q 1 13,5
7
16,77
100
22
Trei kvartil nalazi se u razredu 22-25. Prava donja granica ovog razreda je D=21,5; u razredu
se nalazi fR=22 rezultata; do razreda 14-17 ukupno je fD =69 rezultata; interval razreda iznosi i=4.
75 100
4
Q 3 21,5
69
22,23
100
22
trei kvartil dijeli distibuciju na dva dijela, tako da je ispod 75%, a iznad 25% rezultata, potrebno je
na apscisi (x) oitati rezultat koji odgovara 75 procentu na ordinati (rcf %). Na apscisi oitavamo da
je Q1=16,7 i Q3=22,2. Kao i kod odreivanja medijane, itav postupak radi se na milimetarskom
papiru na kojem moemo oitati tanu vrijednost.
rfc%
100
29,5; 97
90
33,5; 100
25,5; 91
80
70
21,5; 69
60
50
40
30
17,7; 29
20
10
13,5; 7
5,5; 0
0,0
5,0
9,5; 2
10,0
15,0
20,0
25,0
30,0
35,0
40,0
X
PRIMJER 4.3
Na dvije lokacije ireg gradskog podruja biljeene su brzine 70 automobila (mjerenja su
uraena u istom periodu dana). U tabeli ispod prikazani su dobiveni podaci.
Brzina (km/h)
fA
fB
0 - 20
14
21 - 40
18
41 - 60
20
61 - 80
13
30
81 - 100
20
101 - 120
totali
70
70
U ovom primjeru elimo numeriki opisati podatke. Stoga se nuno nameu dva pitanja, a to
su: (1) Koje mjere centralne tendencije i varijabiliteta je potrebno odrediti? i (2) ta moemo
zakljuiti na osnovu dobivenih rezultata?
Prvo to uoavamo iz tabelarnog prikaza jeste da su distribucije frekvencija asimetrine, pa je
u ovom sluaju opravdano izraunati medijanu, uz koju se kao mjera varijabiliteta izraunava
interkvartilni raspon.
59
Iz grafikog prikaza procentualnih ogiva odredit emo medijanu, prvi i trei kvartil za dvije
lokacije.
100%
rcf% 90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
0
20,5
40,5
60,5
80,5
100,5
120,5
X
Lokacija A
Lokacija B
Vrijednosti medijane, prvog i treeg kvartila koje smo oitali iz grafika navedene su u tabeli
ispod.
A
Q1
25,1
62,9
46,0
75,2
Q3
65,8
89,4
PRIMJER 4.4
Na slici ispod dati su box-plot prikazi rezultata koje je jedna grupa ispitanika postigla na tri
testa (T1, T2 i T3). Svaki test sadri 20 zadataka, tako da je ispitanik mogao osvojiti maksimalno 20
bodova. Na osnovu grafikog prikaza odredit emo teine testova.
60
20
18
16
14
12
10
8
6
4
2
0
T1
T2
T3
T1
T2
T3
Teinu testa moemo odrediti prema broju ispitanika koji tano rjeavaju zadatke. to je vei
broj ispitanika koji tano rjeavaju zadatke, to je test laki, i obratno, to je manji broj ispitanika koji
tano rjeavaju zadatke, to je test tei. Kod testa prosjene teine, podjednak je broj ispitanika ispod
i iznad prosjene vrijednosti.
Kako bi odredili teine testova, posmatrat emo razlike u distribuciji rezultata na tri testa, te
utvrditi vrijednosti medijane, prvog i treeg kvartila. Iz box-plot prikaza oitat emo vrijednosti
medijane te prvog i treeg kvartila.
T1
T2
T3
Q1
5,25
2,0
5,25
10,5
6,5
14,0
Q3
15,75
14,75
19,0
I duine linija koje spajaju pravougaonik sa graninikom koji predstavlja najvii, odnosno
najnii rezultat, ukazuju na simetrinost tj. asimetrinost rezultata. Ako je gornja linija dua od
donje, vjerovatno se radi o pozitivno asimetrinoj distribuciji. Ukoliko je donja linija dua od
gornje, onda je distribucija rezultata vjerovatno negativno asimetrina. Upravo takve odnose
uviamo i u naem primjeru.
Na osnovu distribucije rezultata moemo zakljuiti da je test 2 tei u odnosu na test 3, dok za
test 1 moemo tvrditi da je prosjene teine. Na testu 2 postignut je vei broj niih rezultata, dok je
na testu 3 postignut vei broj viih rezultata.
PRIMJER 4.5
Za utvrene visine uenika naeg IIIc odjeljenja, nakon to su utvrene mjere centralne
tendencije, potrebno je utvrditi i pokazatelje varijabiliteta. Obzirom da je rije o distribuciji koja se
svojim oblikom pribliava simetrinoj, u ovom sluaju mogu se izraunati sve mjere varijabiliteta.
Mi smo se odluili za utvrivanje interkvartilnog i poluinterkvartilnog raspona, standardne
devijacije te varijance. U tu svrhu ponovo e nam posluiti tabelarni prikaz distribucije visina
uenika:
Visina uenika
(cm)
rf(%)
cf
rcf(%)
131
132
12
133
16
134
16
32
135
28
15
60
136
20
20
80
137
12
23
92
138
24
96
139
25
100
25
100
Iako se radio o negrupiranoj distribuciji rezultata, postupak raunanja kvartila praktino je isti
kao i kod grupiranih frekvencija rezultata.
62
75 N
i
Q3 D
fD
100
fR
25 25
1
Q 1 133,5
4
100
4
75 25
1
Q 3 135,5
15
100
5
Q1 = 134,06; Q3 = 136,25.
Interkvartilni raspon iznosi:
IQR = Q3 Q1
IQR = 136,25 - 134,06 = 2,19
Poluinterkvartilni raspon iznosi: SIQR= IQR/2=2,19/2=1,09.
Interkvartilni raspon obuhvata 50% sredinjih rezultata. U naem primjeru, 50% uenika
visoki su izmeu 134,06 i 136,25.
Standardnu devijaciju distribucije visina uenika emo izraunati prema izrazu:
fX
f
i
M2
Od ranije nam je poznato da aritmetika sredina distribucije iznosi 135,08 cm. Tabelarnom
prikazu distribucije podataka dodat emo stupce koji e nam posluiti za odreivanje standardne
devijacije:
63
Visina uenika
(cm)
X-M
(X-M)2
(X-M)2xf
131
-4,08
16,65
16,65
132
-3,08
9,49
18,97
133
-2,08
4,33
4,33
134
-1,08
1,17
4,67
135
-0,08
0,01
0,04
136
0,92
0,85
4,23
137
1,92
3,69
11,06
138
2,92
8,53
8,53
139
3,92
15,37
15,37
25
83,84
64
PRIMJER 4.6
Uitelj u O Grbavica II eli utvrditi varijabilitet (preciznije, interkvartilni i
poluinterkvartilni raspon, standardnu devijaciju i varijancu) distribucije rezultata koje su uenici
treih razreda postigli na testu znanja iz matematike (vidi primjer 3.5). U tu svrhu nastavnik je
nainio sljedei tabelarni prikaz distribucije:
razred
cf
crf (%)
X2
f * X2
0-4
28
5-9
49
10-14
12
144
15-19
17
289
20-24
22
484
25-29
27
729
30-34
32
1024
35-39
37
1369
40-44
42
1764
45-49
47
2209
50-54
52
2704
55-59
57
3249
60-64
62
3844
65-69
16
16
67
4489
40401
70-74
13
29
30
72
5184
67392
75-79
61
90
92
77
5929
361669
80-84
97
99
82
6724
47068
85-89
98
100
87
7569
7569
98
524127
65
25 N
i
Q1 D
fD
100
fR
75 N
i
Q3 D
fD
100
fR
Iz kolone rcf (%) oitavamo da se 25% distribucije formiralo u razredu 70 74, a 75%
distribucije odmah u narednom razredu 75 79 (iz ega je odmah jasno da nije rije o simetrinoj
distribuciji). Prema tome:
25 98
5
Q 1 69,5
16
72,77
100
13
75 98
5
Q 3 74,5
29
78,15
100
61
fX
f
i
M2
524127
70,522 19,37 (bodova)
98
66
ZADACI
1. Izraunajte interkvartilni raspon i standardnu devijaciju za podatke iz zadatka 3.1.
2. Izraunajte interkvartilni raspon i standardnu devijaciju za podatke iz zadatka 3.2.
3. Izraunajte interkvartilni raspon i standardnu devijaciju za podatke iz zadatka 3.3.
4. Izraunajte interkvartilni raspon i standardnu devijaciju za podatke iz zadatka 3.4.
5. Na osnovu distribucije grupiranih rezultata iz zadatka 4. grafikim putem odredite interkvartilni
raspon.
6. Izraunajte interkvartilni raspon i standardnu devijaciju za podatke iz zadatka 2.1.
7. Izraunajte interkvartilni raspon i standardnu devijaciju za podatke iz zadatka 2.3.
8. Izraunajte interkvartilni raspon i standardnu devijaciju za podatke iz zadatka 2.6.
9. Ispod su dati rezultati testiranja znanja iz matematike grupe od 20 uenika.
A
14
36
16
10
12
13
15
17
19
13
12
12
14
25
15
19
16
19
17
20
18
15
16
19
17
25
14
25
Najprije odredite koju mjeru varijabiliteta treba izraunati (s obzirom na distribucije rezultata), a
zatim ih izraunajte.
10. Na grupi od 20 studenata primjenjen je upitnik kojim se mjeri srameljivost. Dobiveni rezultati
prikazani su ispod.
1
10
10
13
13
15
16
16
17
40
11. Za pet grupa podataka izraunate su vrijednosti prvog kvartila, centralne vrijednosti i treeg
kvartila. Na osnovu prikazanih vrijednosti, ta moete zakljuiti o obliku distribucije? Da li su
distribucije simetrine, ako nisu o kojoj se simetriji radi? U kojoj grupi podataka je najvea
varijabilnost rezultata?
I
II
III
IV
Q1
10
10
Q3
13
15
20
20
16
14
12
f 10
8
6
4
2
0
18
12 16 20 24 28 32 36 40
12 16 20 24 28 32 36 40
20
20
18
16
14
12
10
8
6
4
2
0
18
16
14
12
f 10
8
6
4
2
0
0
0
12 16 20 24 28 32 36 40
12 16 20 24 28 32 36 40
68
42
40
38
36
34
32
30
28
26
24
22
20
18
16
14
12
10
8
6
4
2
0
T1
T1
T2
T3
T3
T2
T4
T4
13. Izraunajte interkvartilni raspon, varijancu i standardnu devijaciju za podatke iz zadatka 3.10 i
3.11.
14. Izraunajte interkvartilni raspon, standardnu devijaciju i varijancu za podatke iz zadatka 3.12.
Imajui u vidu dobivene vrijednosti varijance i standardne devijacije, jo jednom razmislite o
najpogodnijoj mjeri centralne tendencije distribucije.
15. Izraunajte interkvartilni raspon, varijancu i standardnu devijaciju za podatke iz zadatka 3.13.
16. Izraunajte mjere varijabiliteta za podatke iz primjera 2.2 i 2.9. Koju mjeru varijabiliteta trebamo
koristiti za adekvatnu deskripciju podataka svake od varijabli.
69
Ako je sluajni eksperiment bacanje igrae kocke, skup svih moguih ishoda bit e = {1,2,3,4,5,6}. Dogaaj
za kojeg elimo utvrditi vjerovatnou je pojava parnog broja. Stoga je podskupa A={2,4,6}. Postoji n=6 svih
moguih ishoda, od kojih je m=3 povoljnih za dogaaj A. Tada je P(A) =3/6
P(A)=0,5
Vjerovatnoa dogaaja A iznosi 0,5
Kada je skup svih moguih ishoda beskonaan skup, klasina definicija vjerovatnoe nije
primjenljiva.
70
Ako se sluajni eksperiment sastoji od bacanja igrae kocke, onda se uzastopno bacanje smatra ponavljanjem
sluajnog eksperimenta (u istim uvjetima). Neka je pojava parnog broja dogaaj A. Ako se nakon 100 uzastopnih bacanja kocke dogaaj A ostvari 45 puta, kaemo da je frekvencija m=45. Tada je fA=45/100.
fA=0,45
U kutiji se nalaze tri bijele, sedam crvenih i jedna crna kuglica. Kolika je vjerovatnoa da emo iz kutije
izvaditi bijelu/ crvenu/ crnu kuglicu?Kolika je vjerovatnoa da emo iz kutije izvaditi ili bijelu ili crvenu
kuglicu?
71
P (A1) = 3/11
P (A2) = 7/11
P (A3) = 1/11
P(A1 A2) = P(A1) + P (A2) = 3/11 + 7/11 = 10/11
2. Multiplikaciona teorema
Vjerovatnoa istovremenog dogaanja dva ili vie nezavisnih dogaaja jednaka je produktu
pojedinanih vjerovatnoa tih dogaaja:
P(A1 A2) = P(A1) x P(A2)
Ako bacamo dvije kocke, kolika je vjerovatnoa da e i na jednoj i na drugoj kocki pasti broj 6?
P(A1 A2) = P(A1) x P(A2) = 1/6 x 1/6 = 1/36
Vrijednosti
Vjerovatnoe
1/6
1/6
1/6
1/6
1/6
1/6
72
Ako eksperiment radimo sa kockom koja nije idealna (jer je npr. pomaknuto teite), tada ishodi ne bi bili
jednako vjerovatni, ve bi im pripadale razliite vjerovatnosti (pi0, pi=1).
Binomna distribucija (situacije u kojima svaki broj nezavisnih pokuaja rezultira jednim od
dva mogua ishoda, pri emu pojavljivanje jednog ishoda iskljuuje mogunost pojavljivanja drugog
ishoda primjer bacanja novia) i Poissonova distribucija (raspodjela rijetkih dogaaja)
predstavljaju diskretne distribucije vjerovatnoa.
Kontinuiranoj sluajnoj varijabli pripada distribucija vjerovatnoa vrijednosti (ishoda)
unutar odreenog intervala. Distribucija vjerovatnoa kontinuirane sluajne varijable razlikuje se
od distribucije vjerovatnoa diskretnih varijabli jer:
ishod (dogaaj, rezultat) moe biti bilo koja vrijednost unutar odreenog opsega, s tim da ta
vrijednost nije nuno cijeli broj,
vjerovatnoa jedne specifine vrijednosti je nula, i
vjerovatnoa se izraava u terminima povrine pod krivom koja predstavlja kontinuiranu
distribuciju.
73
PRIMJER 5.1
Neka su baene dvije kocke. Kolika je vjerovatnoa da je zbir brojeva koji se pojave na
kockama 7?
Svi mogui ishodi eksperimenta, tj. potpuni skup sastoji se od svih ureenih parova (i, j). U
svakom ureenom paru prvi element predstavlja broj koji se pojavljuje na gornjoj strani prve kocke,
a drugi element u paru predstavlja broj koji se pojavljuje na gornjoj strani druge kocke. Skup u
ovom primjeru ima 36 elemenata.
Dogaaj A, da je zbir brojeva koji se pojave na kockama 7, jeste sljedei podskup od :
= {(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)}
Vjerovatnoa dogaaja A, jednaka je:
P(A) = 7 / 36=0,194
PRIMJER 5.2
U kutiji se nalaze pet bijelih, etiri ute i dvije crne kuglice. Kolika je vjerovatnoa da emo iz
kutije izvaditi svijetlu (bijelu ili utu) kuglicu?
Primjenit emo aditivnu teoremu, prema kojoj za meusobno iskljuive dogaaje A1 i A2
vjerovatnoa da e se dogoditi ili A1 ili A2 jednaka je sumi vjerovatnoa svakog pojedinanog
dogaaja. Dogaaj A1 je izvlaenje bijele, a dogaaj A2 je izvlaenje ute kuglice. Vjerovatnoe
dogaaja A1, A2 i A3 iznose:
P (A1) = 5/11
P (A2) = 4/11
P (A3) = 2/11.
Vjerovatnoa izvlaenja svijetle kuglice (ili bijele ili ute) iznosi:
P(A1 A2) = P(A1) + P (A2) = 5/11 + 4/11 = 9/11=0,818
PRIMJER 5.3
Ako bacamo dvije kocke, kolika je vjerovatnoa da e i na jednoj i na drugoj kocki pasti broj
1?
Prema multiplikacionoj teoremi, vjerovatnoa istovremenog dogaanja dva ili vie nezavisnih
dogaaja jednaka je produktu pojedinanih vjerovatnoa tih dogaaja. Vjerovatnoa dogaaja A 1
74
PRIMJER 5.4
Pretpostavimo da veliku grupu srednjokolaca (N=3000) pitamo da na skali od 1 (ekstremno
vano) do 5 (uope nije vano) procjene vanost razliitih aspekata njihovog ivota: zdravlje, kola,
prijatelji, politika stabilnost. Na slici 5.4.1 dat je grafiki prikaz distribucije relativnih frekvencija
odgovora ovog hipotetikog primjera.
75
PRIMJER 5.5
Studenti prve godine Odsjeka za psihologiju u Sarajevu su na vjebama iz predmeta Statistika
u psihologiji I napravili mali eksperiment: eljeli su empirijski provjeriti kako izgleda distribucija
diskretne sluajne varijable u sluaju velikog broja rezultata. Da bi to postigli studenti su bacali
parove igraih kocki i biljeili dobivene rezultate. Dakle, rezultat je operacionaliziran kao zbir
brojeva koji se dobije bacanjem dvije igrae kocke.
Mogue kombinacije brojeva i odgovarajui rezultati koji se mogu dobiti bacanjem dvije
kocke (kocke I i II) prikazani su u tabeli 5.5.1
Kocka I
Kocka II
Rezultat
Kocka I
Kocka II
Rezultat
Kocka I
Kocka II
Rezultat
Kocka I
Kocka II
Rezultat
Kocka I
Kocka II
Rezultat
Kocka I
Kocka II
Rezultat
Tabela 5.5.1. Kombinacije brojeva i odgovarajui rezultati koji se mogu dobiti bacanjem dvije kocke
10
10
11
10
11
12
76
p=m/n
36
0,0278
2,7778
36
0,0556
5,5556
36
0,0833
8,3333
36
0,1111
11,1111
36
0,1389
13,8889
36
0,1667
16,6667
36
0,1389
13,8889
36
0,1111
11,1111
10
36
0,0833
8,3333
11
36
0,0556
5,5556
12
36
0,0278
2,7778
1,0000
100
total
p (rf)
% (rf%)
0,02778
2,778
25
0,05556
5,556
50
0,08333
8,333
75
0,11111
11,111
100
0,13889
13,889
125
0,16667
16,667
150
0,13889
13,889
125
0,11111
11,111
100
10
0,08333
8,333
75
11
0,05556
5,556
50
12
0,02778
2,778
25
total
1,00000
100,000
900
77
Gornja distribucija ima M=7 i s=2,42, te ima oblik normalne distribucije, to se moe vidjeti i
na slici 5.2.2.
S lika 5.2.2. T eorijs ka (o ekiv ana) dis tribuc ija rez ultata bac anja
dv ije koc ke 900 puta
160
0,18
140
0,16
0,14
120
0,12
100
0,1
f 80
0,08
60
0,06
40
0,04
20
0,02
0
1
10
11
12
13
R ez ultat
Sada moemo prei na empirijski dio eksperimenta. Studenti su prilikom 900 stvarnih bacanja
kocki dobili frekvencije prikazane u tabeli 5.5.4.
Table 5.5.4: Empirijska distribucija rezultata
Rezultat
Opaena
frekvencija
21
57
66
83
126
147
139
97
10
81
11
54
12
29
900
78
0,18
140
0,16
0,14
120
0,12
100
0,1
f 80
0,08
60
0,06
40
0,04
20
0,02
0
1
10
11
12
13
R ez ultat
PRIMJER 5.6
Posmatrajmo eksperiment bacanja dvije kocke. Kolika je vjerovatnoa da je zbir brojeva koji
se pojavljuju na kockama 6, uz uvjet da je drugi broj paran?
Neka je E dogaaj takav da je zbir brojeva koji se pojavljuju na kockama 6, tj. E = {(1,5),
(2,4), (3,3), (4,2), (1,5)}. Neka je F dogaaj da je broj koji se pojavljuje na drugoj kocki paran, tj.
F={(1,2), (2,2), (3,2), (4,2), (5,2), (6,2),(1,4), (2,4), (3,4), (4,4), (5,4), (6,4), (1,6), (2,6), (3,6), (4,6),
(5,6), (6,6)}.
79
PRIMJER 5.7
Provedena su tri eksperimenta sa tri igrae kocke. U svakom eksperimentu igrau kocku bacali
smo 600 puta. Ispod su prikazane uestalosti pojavljivanja brojeva 1, 2, 3, 4, 5, 6.
Strana
kocke
Eksperiment
1
Eksperiment
2
Eksperiment
3
100
50
101
98
70
99
102
130
102
93
80
101
110
150
98
97
120
99
total
600
600
600
Strana
kocke
Eksperiment 1
Eksperiment 2
Eksperiment 3
pe
pt
pe
pt
pe
pt
0,167
0,167
0,083
0,167
0,168
0,167
0,163
0,167
0,117
0,167
0,165
0,167
0,170
0,167
0,217
0,167
0,170
0,167
0,155
0,167
0,133
0,167
0,168
0,167
0,183
0,167
0,250
0,167
0,163
0,167
0,162
0,167
0,200
0,167
0,165
0,167
total
80
81
6. Normalna raspodjela
Na slici 6.1 prikazan je histogram rezultata 100 ispitanika na testu X. Mnogi podaci, prikupljeni
od relativno velikog broja ispitanika, rasporeuju se slino kao to je prikazano na slici. Moemo
primjetiti da su krajevi histograma jednako udaljeni od jednog vrha pozicioniranog tano u sredini.
Slika 6.1: Histogram rezultata testa X
30
20
10
0
25,0
35,0
30,0
45,0
40,0
55,0
50,0
65,0
60,0
75,0
70,0
Krivulja nacrtana kroz histogram predstavlja matematiki model raspodjele rezultata i prua
kompaktnu sliku cjelokupne raspodjele rezultata (obzirom da je matematiki model idealizirana slika
raspodjele rezultata, zanemaruju se eventualna mala odstupanja).
Krivulja prikazana na slici je normalna krivulja i grafiki opisuje kontinuiranu raspodjelu
koju zovemo normalna raspodjela. Normalna raspodjela je zvonolikog oblika, simetrina i
unimodalna.
Matematiki je definirana izrazom:
standardne devijacije. Aritmetika sredina nalazi se u centru raspodjele, tj. tjemenu krive, i iste je
vrijednosti kao i medijana.
Normalna raspodjela je vana u statistici jer:
vrijednosti mnogih psiholokih varijabli u populaciji se rasporeuju normalno,
osnova je za mnoge statistike testove, i
pod odreenim uvjetima, predstavlja aproksimaciju razliitih diskretnih raspodjela (binomne
i Poissonove).
Ukoliko znamo vrijednosti aritmetike sredine i standardne devijacije, tada moemo odrediti
broj rezultata unutar nekog opsega2. Odnosno vrijedi da se u...
intervalu nalazi se 68,26% svih rezultata
intervalu 2 nalazi se 95,44% svih rezultata
intervalu 3 nalazi se 99,73% svih rezultata
Na slici ispod prikazana je normalna raspodjela sa navedenim intervalima i postocima rezultata
koji se nalaze u datom intervalu.
83
Transformacija rezultata u z-vrijednosti naziva se standardizacija rezultata. Pomou zvrijednosti izraavamo koliko je neki rezultat udaljen od aritmetike sredine i u kojem smjeru (desno
ili lijevo od aritmetike sredine), pri emu se udaljenost izraava u jedinicama standardne devijacije.
Z-vrijednost odreujemo koristei izraz:
84
p1
p2
85
PRIMJER 6.1
Raspodjela vrijednosti holesterola u krvi u populaciji osoba iste dobne grupe i spola priblino
je normalna. Za 14-godinje djeake prosjena vrijednost u populaciji iznosi = 170 mg/dl, a
standardna devijacija = 30 mg/dl. Vrijednosti iznad 240 mg/dl zahtijevaju medicinski tretman.
Zanima nas postotak 14-godinjih djeaka koji imaju vrijednost holesterola veu od 240 mg/dl?
Potrebno je odrediti postotak djeaka sa X>240 mg/dl. U raspodjeli rezultata odreivanje
postotka djeaka sa X>240 mg/dl podrazumijevalo bi odreivanje proporcije, tj. povrine pod
normalnom krivuljom pomou formule koja matematiki definira normalnu krivulju. Umjesto toga,
koristit emo standardnu normalnu raspodjelu za koju su vrijednosti povrina pod krivuljom
izraunate i sistematizirane u tablici. Stoga emo najprije izraunati z-vrijednost za X=240, a zatim
iz tabele A oitati povrinu koja korespondira izraunatoj z-vrijednosti.
= 170 mg/dl
= 30 mg/dl
X = 240 mg/dl
z=
XM
s
z=
240 170
30
z = 2,33
Potrebno je odrediti povrinu pod normalnom krivuljom za z > 2,33.
p=0,0099
z=2,33
Iz tablice emo oitati da povrina od z=2,33 do kraja krivulje iznosi p=0.0099, tj p0,01.
Pretvoreno u procente, povrina iznosi 1%.
Na kraju zakljuujemo da u populaciji moemo oekivati 1% djeaka dobi od 14 godina koji
imaju vrijednost holesterola u krvi veu od 240 mg/dl.
86
PRIMJER 6.2
Prosjeno vrijeme trajanja trudnoe (od zaea do poroda) u populaciji iznosi =266 dana uz
varijabilnost od =16 dana. Raspodjela je priblino normalna.
a. Osoba A.B porodila se 282. dan. Koji postotak ena ima vrijeme trajanja trudnoe vee od osobe
A.B.?
= 266 dana
= 16 dana
X=282 dana
z=?
z=
XM
z=
282 266
16
z=1
Potrebno je odrediti povrinu pod normalnom krivuljom za z > 1.
p=0,1587
z=1
Iz tablice emo oitati da povrina od z=1 do kraja krivulje iznosi p=0,1587. Pretvoreno u
procente, povrina iznosi 15,87%. Na kraju, zakljuujemo da u populaciji moemo oekivati 15,87%
ena kod kojih trudnoa traje vie od 282 dana.
b. Osoba C.D. porodila se 250-ti dan trudnoe. Koji postotak ena ima vrijeme trudnoe vee od
osobe C.D.?
= 266 dana
= 16 dana
X = 250 dana
z=?
z = -1
z=
XM
s
z=
87
250 266
16
p=0,1587
z=-1
Iz tablice emo oitati da povrina od z=-1 do blieg kraja krivulje iznosi p=0,1587.
Pretvoreno u procente povrina iznosi 15,68%. Meutim, povrina koja nas interesira nalazi se od z
do desnog kraja krivulje. Stoga emo zakljuiti da u populaciji moemo oekivati 100% - 15,87 % =
84,17 % ena kod kojih trudnoa traje vie od 250 dana.
c. Koliko je ena kojima je vrijeme trudnoe izmeu 250 i 282 dana.
= 266 dana
= 16 dana
X1 = 250 dana
X2 = 282 dana
z1 = ?
z2 = ?
z1 = -1;
z2 = 1
88
XM
s
89
PRIMJER 6.3
Primjenjujui test matematikih kompetencija na velikom broju uenika prvog razreda
srednjih kola dobivena je normalna raspodjela rezultata sa sljedeim vrijednostima M=500 i s=100.
a. Koji postotak uenika postie rezultate vee od 600? Drugim rijeima, koliko iznosi centilni rang
rezultata 600?
z=
XM
s
z = (600 500)/100 = 1
p = 0,1587 P = 15,87%.
15,87% uenika postie rezultat vei od 600. Dakle, rezultat 600 lei na 84-om centilu (10015,87=84,1384).
b. Koji postotak uenika postie rezultate manje ili jednake 400? Drugim rijeima, koliko iznosi
centilni rang rezultata 400?
z=
XM
s
z = (400 500)/100 = -1
p = 0,1587
P = 15,87%,
Dakle, 15,87% uenika postie rezultat manji ili jednak 400. Rezultat 400 lei na 16-om
centilu (ispod ovog rezultata nalazi se oko 16% rezultata).
c. Koji rezultat je jednak manji od 75% rezultata postignutih na testu? Drugim rijeima, koliko
iznosi 25 centil?
p = 0,25
z = - 0,67
X = M + zs = 500 - 0,67x100 = 433
Rezultat 433 nalazi se na 25 centilu (ovaj rezultat je jednak ili manji od 75% postignutih
rezultata).
U istom istraivanju primijenjen je test jezikih kompetencija. Dobivene su sljedee
deskriptivne vrijednosti raspodjele: M = 550, s = 90.
90
z1 =
z2 =
500 500
100
500 550
90
=0
= -0,55
PRIMJER 6.4
Kvocijent inteligencije (IQ) je standardizirani rezultat, a raspodjela vrijednosti IQ-a u
populaciji priblino je normalna, sa deskriptivnim populacijskim vrijednostima = 100 i = 16.
a. Koliko iznosi vjerovatnoa sluajnog odabira rezultata vrijednosti 120 i vie?
z = (120-100)/16 =1,25
p = 0,1056
Dakle, vjerovatnoa sluajnog odabira rezultata vrijednosti 120 i vie iznosi 10,56%.
b. Koliko iznosi vjerovatnoa sluajnog odabira rezultata vrijednosti 90 i manje?
z = (90-100)/16 = -0,625
p = 0,2643
Dakle, vjerovatnoa sluajnog odabira rezultata vrijednosti 90 i manje iznosi 26,43%.
c. Koliko iznosi vjerovatnoa sluajnog odabira rezultata vrijednosti od 90 do 120?
z1 = -0,625; z2 = 1,25
p = 1-(p1+p2) = 1- (0,2643 + 0,1056) = 0,6301
Dakle, vjerovatnoa sluajnog odabira rezultata izmeu 90 i 120 iznosi 63,01%.
91
d. MENSA je organizacija koja okuplja ljude sa visokim IQ. lanovima ove organizacije moe
postati samo 2% osoba sa najviim IQ rezultatima. Koliko iznosi najmanji rezultat koji prua
mogunost ulanjenja u MENSA-u? Zapravo, interesira nas koja z vrijednost odgovara postotku od
2% najviih rezultata ispod standardne normalne krive. Iz tabele oitavamo da je to z=2,05.
X = M + zs
X = 100 + 2,05x16
X = 132,8
Dakle, najmanji IQ rezultat koji prua mogunost ulanjenja u MENSA-u iznosi 132,8.
PRIMJER 6.5
U primjeru 2.3 raspodjele visina uenika IIIc odjeljenja smo prikazivali tabelarno i grafiki te
smo ilustrovali vrste informacija koje moemo ekstrahirati iz ovih prikaza. Na ovom mjestu emo
pokazati da do istih informacija moemo doi sluei se standardnom normalnom raspodjelom
(obzirom da je i originalna raspodjela visina uenika takoer normalna) te pripadajuom tablicom p
vrijednosti pod krivom standardne normalne raspodjele. U primjerima 3.4 i 4.5 utvrdili smo
prosjenu vrijednost i pripadajuu standardnu devijaciju za raspodjelu visina 25 uenika IIIc
odjeljenja: M = 135,08 cm i s = 1,83 cm.
a. Koliko uenika IIIc odjeljenja je visoko izmeu 135,5 i 136,5 cm?
Da bismo utvrdili broj rezultata koji spadaju u odreeni interval raspodjele moramo se
koristiti tablicama p vrijednosti pod krivom standardne normalne raspodjele. Ove vrijednosti se iz
tablica oitavaju samo u odnosu na standardne, z-vrijednosti. To znai da je neophodno utvrditi
odgovarajue z-vrijednosti za originalne rezultate (rezultate izraene na originalnoj skali mjerenja, tj.
rezultate iz originalne raspodjele).
Pripadajue z vrijednosti za originalne rezultate 135,5 i 136,5 cm su:
z=
z=
XM
s
XM
s
135,5 135,08
1,83
136,5 135,08
1,83
= 0,23
= 0,78
92
0,25
Iz tablic e o itavamo da s e od z = 0.23 do kra ja
distribuc ije nalaz i 40,90% povr ine dis tribuc ije (tj.
40,90% rez ultata u dis tribuc iji). O vaj dio dis tribuc ije z vat
d emo povr inom 1 (P 1).
0,2
O d z = 0.78 do kraja dis tribuc ije nalaz i s e 21,77%
povr ine dis tribuc ije (tj. 21,77% rez ultata u
dis tribuc iji).O vaj dio dis
tribuc ije z vat d emo
0,15
povr inom 2 (P 2).
O ve dvije povr ine preklapaju s e u dijelu dis tribuc ije
koji je na grafiku oz na en "kariranim" trihiranjem.
0,1 do P 2 (dakle, dio dis tribuc ije
To nije ni ta drugo
iz nad z = 0,78).
-4
-3
-2
-1
z = 0,23
Meutim, mi elimo z nati proc enat dis tribuc ije iz meu ove
0,05
dvije vrijednos ti (taj dio dis tribuc ije oz na en je kos im linijama).
Taj dio dis tribuc ije odgovara upravo ra z lic i iz meu P 1 i P 2 pa
d emo ga tako i utvrditi:
P 1 - P 2 = 40,90 - 21,77 = 19,13.
0 u enika IIIc odjeljenja vis oko je iz meu 135,5 i
Dakle, 19,13%
136,5 c m. 4
z = 0,78
93
XM
137 135,08
1,83
= 1,05
0,25
0,2
0,15
O d z = 1,05 do bli eg kraja
dis tribuc ije nalaz i s e 14,69%
dis tribuc ije.
0,1
0,05
0
-4
-3
-2
-1
z = 1,05
0,2
0,15
0,1
0,05
0
-4
94
-3
-2
-1
z = 0,18
z = 1,05
ZADACI
1. U primjerima 2.3, 3.4 i 4.5 utvrdili smo karakteristike distribucije visina uenika IIIc odjeljenja
(izmeu ostalog i to da distribucija ima M = 135,08 cm i s = 1,83 cm). Utvrdite u kojem rasponu
rezultata se u ovoj raspodjeli nalazi:
a. 68,26% sredinjih vrijednosti.
b. 95,44% sredinjih vrijednosti.
c. 99,73% sredinjih vrijednosti.
2. Iste raspone utvrdite i za distribucije iz zadataka: 2.1, 2.3, 3.1, 3.2, 3.3 i 3.4.
3. Distribucija rezultata ima M = 28 i s = 4. Utvrdite z-vrijednosti za sljedee rezultate koji su
izvueni iz ove distribucije:
a.
b.
c.
d.
e.
X = 28.
X = 32.
X = 36.
X = 24.
X = 16.
z = 2,5.
z = -1,8.
z = 0.
z = 1.
z = 2.
z = -3.
Obratite panju na rezultate koje ste dobili u zadacima c., d., e. i f. Objasnite zato ste dobili
upravo te sirove vrijednosti.
5. Distribucija rezultata ima s = 9. Ako rezultatu X = 36 u ovoj distribuciji odgovara z = -2,2, koliko
iznosi aritmetika sredina distribucije?
6. Distribucija ima M = 41. Ako rezultatu X = 28 u ovoj distribuciji odgovara z = - 3,2, koliko
iznosi standardna devijacija distribucije?
95
X = 26.
X = 21.
X = 40.
X = 55.
X = 63.
X = 30.
X = 48
X = 41
X = 54
X = 57
X = 62
X = 65
Za svaki od navedenih rezultata utvrdite procenat rezultata izmeu datog rezultata i aritmetike
sredine distribucije.
9. Distribuciju visina uenika IIIc odjeljenja (iz primjera 2.3, 3.4 i 4.5) predstavite pomou
histograma. Zatim sve rezultate iz distribucije pretvorite u z-rezultate te dobivenu z-distribuciju
prikaite na histogramu. Da li se oblik distribucije promijenio? Objasnite.
10. Obratite panju na predznak odgovarajuih z-rezultata za visine dva najnia i dva najvia uenika
u IIIc odjeljenju. ta vam govori predznak utvrenih z-rezultata?
11. Za potrebe regrutiranja novih vojnika, Ministarstvo odbrane je testom inteligencije testiralo
ukupno 1350 ispitanika. Dobivena je normalna distribucija rezultata sa sljedeim deskriptivnim
vrijednostima: M = 202 i s = 38. Utvrdite z-vrijednosti za ispitanike sa sljedeim rezultatima:
a.
b.
c.
d.
e.
f.
g.
h.
X1 = 115
X2 = 236
X3 = 302
X4 = 345
X5 = 98
X6 = 152
Za svakog od navedenih ispitanika utvrdite broj ispitanika koji su ostvarili bolji rezultat.
Utvrdite broj ispitanika koji se po rezultatu na testu inteligencije nalaze izmeu ispitanika 1 i
4; 2 i 5; 2 i 4; 1 i 6.
i. Utvrdite koji (sirovi) rezultat dijeli distribuciju na 50% slabijih i 50% boljih ispitanika.
96
j. Ukoliko Ministarstvo odbrane eli regrutovati samo 250 najboljih ispitanika, koji (sirovi)
granini rezultat e koristiti prilikom selekcije kandidata?
k. Ukoliko Ministarstvo odbrane eli regrutovati 35% najboljih kandidata, koji (sirovi) granini
rezultat e koristiti prilikom selekcije kandidata?
12. Velika programerska kompanija eli zaposliti 25 novih radnika. Na konkurs se prijavilo ukupno
89 kandidata. Svi kandidati su testirani na Testu matematike i Testu informatike. Distribucije
utvrenih rezultata na ova dva testa imaju sljedee deskriptivne pokazatelje:
Test matematike: M = 125 i s = 17;
Test informatike: M = 42 i s = 8.
a. Na intervju za posao bie pozvani svi kadidati koji su na Testu matematike ostvarili najmanje
145 bodova. Koliko kandidata e biti pozvano na intervju?
b. Kompanija je zaposlila sve intervjuirane kandidate. Obzirom da je ostao odreeni broj
nepopunjenih radnih mjesta, rukovodioci sektora za ljudske resurse odluili su organizirati
informatiku obuku za najbolje meu preostalim (nezaposlenim) kandidatima. Na trening su
odluili pozvati 20% kandidata koji su na Testu matematike ostvarili najbolje rezultate kada
se iz poetne skupine iskljue kandidati koji su ve dobili posao. Koji rezultat na Testu
matematike e biti koriten kao granini prilikom odluivanja koga pozvati na trening?
c. Kandidat A je na Testu matematike ostvario rezultat 120, a na Testu informatike 48. Kandidat
B je na Testu matematike ostvario 131 bodova, a na Testu informatike 42 boda. Ako
kompanija oba testa smatra jednako vanim, koji od ova dva kandidata bi trebao imati
prednost pri zapoljavanju?
13. U medicini se smatra da je normalna vrijednost sistolikog krvnog pritiska kod odraslih
mukaraca 120 mm/Hg. U velikom epidemiolokom istraivanju (provedenom na podruju cijele
drave) na reprezentativnom uzorku od N = 3.500 odraslih mukaraca utvreno je da se
vrijednosti sistolikog krvnog pritiska normalno distribuiraju sa M = 126 mm/Hg i s = 11
mm/Hg.
a. Koji procenat odraslog mukog stanovnitva ima sistoliki krvni pritisak vei od normalnog?
Ako u datoj dravi ivi ukupno 4.250.827 odraslih mukih stanovnika, koliko njih ima
sistoliki krvni pritisak vei od normalnog?
b. Ako je drava u lijeenju pacijenata sa sistolikim krvnim pritiskom veim od 160 mm/Hg
duna uestvovati sa 3.80 Eur mjeseno po pacijentu, kolike mjesene trokove lijeenja ove
bolesti moe oekivati ministar zdravstva date drave?
14. Prema novom zakonu o socijalnoj pomoi, domainstva u dravi podijeljenja su u 6 kategorija
prema visini mjesenih primanja:
Kategorija I: do 120 KM (mjeseno u domainstvu);
Kategorija II: od 121 do 200 KM;
Kategorija III: od 201 KM do 350 KM;
Kategorija IV: od 351 KM do 600 KM;
97
12
11
98
1. Populacija
2. Uzorak
3. Deskripcija i
analiza
podataka iz
uzorka
4. Statistiko
zakljuivanje
Populaciju ine svi lanovi neke grupe s odreenom karakteristikom koju mjerimo.
Deskriptivne vrijednosti populacije nazivamo parametrima: aritmetika sredina populacije i
standardna devijacija populacije.
Uzorak je podskup populacije na kojem se vri istraivanje. Da bi se rezultati dobiveni
istraivanjem na uzorku mogli generalizirati na populaciju iz koje je uzorak izvuen, uzorak mora
biti reprezentativan. Deskriptivne statistike vrijednosti (M i s) koje smo dobili na uzorku
99
N=5
48,8
49,4
42,8
47,4
43,2
50,0
48,8
56,6
53,2
44,8
54,8
47,2
51,0
53,4
54,4
50,2
50,6
49,2
48,6
48,2
49,6
3,7
Veliina uzorka
N=100 N=5000
50,5
49,8
50,9
50,0
50,9
49,9
51,4
49,8
50,9
49,7
50,2
49,9
51,3
49,8
52,8
49,7
50,1
49,8
49,3
49,7
52,4
49,8
49,1
49,8
50,1
49,9
50,2
49,8
48,7
49,9
48,9
49,8
49,8
49,7
51,1
49,7
50,3
49,9
51,4
50,1
50,5
49,8
1,1
0,1
100
101
PRIMJER 7.1
Istraiva je u jednom manjem mjestu zaposlene graane pitao o visini njihove mjesene
zarade. Na taj nain dobio je bazu podataka sa iznosima mjesenih plata za N=10000 ispitanika
[obzirom da se u ovom skupu nalaze sve zaposlene osobe koje ive u tom mjestu, ovaj skup
nazivamo populacijom (zaposlenih osoba tog mjesta), a vrijednosti koje utvrdimo na ovim podacima
parametrima]. U tabeli 7.1.1 prezentirane su vrijednosti parametara ove populacije.
Tabela 7.1.1: Populacijske deskriptivne vrijednosti varijable Mjesena primanja (N=10000)
Medijan
Skjunis
Kurtozis
Raspon
Minimum
Maximum
1200,47
1201,00
259,63
0,02
-0,08
1979,94
204,90
2184,84
2101 - 2200,5
2001 - 2100,5
1901 - 2000,5
1801 - 1900,5
1701 - 1800,5
1601 - 1700,5
1501 - 1600,5
1401 - 1500,5
1301 - 1400,5
1201 - 1300,5
1101 - 1200,5
1001 - 1100,5
901 - 1000,5
801 - 900,5
701 - 800,5
601 - 700,5
501 - 600,5
401 - 500,5
301 - 400,5
201 - 300,5
aritmetikih sredina. Dobivene aritmetike sredine i standardne devijacije za svaki formirani uzorak
prezentirane su u tabeli 7.1.2.
1159,21
1214,20
1195,01
1278,40
1161,32
1240,94
1215,48
1176,50
1221,17
1200,65
1216,56
1217,22
1278,56
1199,91
1155,46
1206,81
1183,36
1149,56
1193,08
1252,95
1228,54
1232,06
1164,10
1227,48
1193,44
1255,06
1171,73
1221,07
1296,07
1280,11
1191,20
1237,17
1281,10
1207,93
1174,78
1185,07
1187,82
1174,19
1264,19
1239,55
1126,24
1265,88
1201,25
1245,73
1202,71
1140,33
1093,32
1213,18
1149,27
1255,80
237,79
239,18
268,70
238,58
217,88
212,18
247,92
211,59
214,70
253,94
262,68
235,36
273,00
273,00
300,92
257,02
269,74
262,79
216,72
251,02
246,04
268,92
269,81
252,53
237,11
215,68
211,25
252,71
240,02
301,00
228,79
282,83
165,10
225,83
252,89
265,55
285,36
274,89
234,01
257,59
288,01
291,30
324,63
287,20
284,12
194,30
223,49
238,48
266,60
279,99
M
s
1208,45
44,10
251,81
Prije svega, primjeujemo da niti jedna od utvrenih aritmetikih sredina formiranih uzoraka
ne odgovara (u potpunosti) aritmetikoj sredini populacije. Sve aritmetike sredine uzoraka vie ili
manje variraju oko prave populacijske aritmetike sredine. Ova pojava je sasvim oekivana
aritmetiku sredinu uzorka koja u potpunosti odgovara aritmetikoj sredini populacije po sluaju
moemo oekivati iznimno rijetko.
Ipak, ukoliko populacijska distribucija ima oblik normalne raspodjele te ukoliko iz te
populacije po sluaju formiramo dovoljan broj uzoraka iste veliine i izraunamo njihove
103
aritmetike sredine, primjetiemo da se te aritmetike sredine uzoraka grupiraju oko jedne centralne
vrijednosti u obliku normalne raspodjele. Centralna vrijednost oko koje se te aritmetike sredine
grupiraju odgovara pravoj populacijskoj aritmetikoj sredini (vidi pravilo 1 u uvodnom dijelu).
Kako smo mi iz nae poetne, normalne populacije od 10000 lanova formirali relativno
veliki broj uzoraka (50) iste veliine (n=30), moemo empirijski provjeriti gornju tvrdnju. Dakle, iz
tabele 7.1.2 vidimo da zajednika aritmetika sredina aritmetikih sredina svih uzoraka, tj.
aritmetika sredina distribucije aritmetikih sredina uzoraka iznosi M=1208,453. Ova
vrijednost bliska je populacijskoj aritmetikoj sredini od =1200,47. Slika 7.1.2 ilustrira kako se
aritmetike sredine uzoraka distribuiraju oko svoje zajednike aritmetike sredine.
10
f 6
1291 - 1310,5
1271 - 1290,5
1251 - 1270,5
1231 - 1250,5
1211 - 1230,5
1191 - 1210,5
1171 - 1190,5
1151 - 1170,5
1131 - 1150,5
1111 - 1130,5
1091 - 1110,5
U uvodnom dijelu, za oznaavanje deskriptivnih vrijednosti distribucije aritmetikih sredina uzoraka koriteni su simboli za oznaavanje
populacijskih vrijednosti ( i ) obzirom da se misli na teoretsku, beskonano veliku populaciju aritmetikih sredina beskonano velikog
broja uzoraka iste veliine koji se mogu izvui iz beskonano velike poetne populacije. Obzirom da u ovom primjeru radimo sa
konkretnom distribucijom aritmetikih sredina 50 uzoraka (to je, u sutini, samo uzorak svih moguih aritmetikih sredina uzoraka koji
se mogu izvui iz poetne populacije), za oznaavanje deskriptivnih vrijednosti ove distribucije koristiemo se oznakama koje se i inae
koriste za uzorke M i s.
104
M
1159,21
1214,20
1195,01
1278,40
1161,32
1240,94
1215,48
1176,50
1221,17
1200,65
1216,56
1217,22
1278,56
1199,91
1155,46
1206,81
1183,36
1149,56
1193,08
1252,95
1228,54
1232,06
1164,10
1227,48
1193,44
1255,06
1171,73
1221,07
1296,07
1280,11
1191,20
1237,17
1281,10
1207,93
1174,78
1185,07
1187,82
1174,19
1264,19
1239,55
1126,24
1265,88
1201,25
1245,73
1202,71
1140,33
1093,32
1213,18
1149,27
1255,80
s
237,79
239,18
268,70
238,58
217,88
212,18
247,92
211,59
214,70
253,94
262,68
235,36
273,00
273,00
300,92
257,02
269,74
262,79
216,72
251,02
246,04
268,92
269,81
252,53
237,11
215,68
211,25
252,71
240,02
301,00
228,79
282,83
165,10
225,83
252,89
265,55
285,36
274,89
234,01
257,59
288,01
291,30
324,63
287,20
284,12
194,30
223,49
238,48
266,60
279,99
M
s
1208,45
44,10
n = 30
n = 300
n = 800
1212,80
252,24
1205,77
258,32
1171,57
246,16
1187,69
268,43
1198,13
246,79
1209,88
248,12
1213,14
259,72
1193,99
258,77
1235,48
266,99
1197,00
253,27
1214,32
270,36
1190,70
244,02
1187,89
249,13
1201,27
252,40
1186,08
263,07
1207,79
259,31
1185,73
262,41
1190,56
264,03
1183,70
256,35
1213,49
248,96
1193,68
248,90
1216,45
248,39
1216,49
254,39
1194,98
254,73
1201,29
254,61
1208,70
256,15
1191,34
260,68
1193,45
257,56
1182,94
265,45
1201,16
256,61
1182,29
275,51
1202,33
265,18
1185,35
277,03
1209,66
264,35
1187,75
277,65
1184,40
258,92
1203,41
252,27
1212,43
252,60
1192,18
269,66
1194,32
261,26
1215,83
258,51
1191,88
262,74
1200,76
241,56
1194,11
258,97
1190,14
279,29
1206,70
256,39
1228,05
251,95
1202,84
256,85
1204,94
262,48
1191,34
253,98
1190,77
254,68
1200,20
268,44
1188,23
251,53
1195,80
245,25
1205,05
264,23
1204,73
258,14
1199,41
256,49
1194,88
266,50
1223,49
265,27
1214,20
252,56
1220,95
286,11
1211,56
261,39
1192,60
283,42
1193,05
259,50
1189,22
256,46
1202,08
263,06
1206,08
255,90
1208,79
250,54
1202,25
262,98
1212,08
257,34
1190,49
264,05
1209,52
257,42
1197,87
268,06
1202,61
266,85
1214,96
243,33
1205,10
261,60
1189,62
270,30
1209,66
257,23
1221,46
250,39
1205,57
268,07
1163,68
250,56
1192,17
253,91
1202,90
255,26
1203,01
256,18
1185,99
260,71
1198,76
261,86
1209,04
253,01
1189,05
275,81
1210,58
268,66
1204,23
260,74
1207,22
256,21
1194,54
269,08
1192,34
260,13
1189,54
253,00
1226,84
270,23
1196,20
259,48
1186,71
264,93
1210,77
258,50
1200,06
260,13
1185,91
267,40
251,81
1199,66
15,03
260,72
1200,74
8,45
258,60
1200,47
259,63
Populacijske vrijednosti:
najue grupiraju oko svoje zajednike aritmetike sredine (koja je, jo jednom, vrlo bliska
populacijskoj aritmetikoj sredini razlika je samo 0,27 KM).
Razlike izmeu distribucija aritmetikih sredina uzoraka razliite veliine jo su uoljivije
na slici 7.1.3.
Slika 7.1.3.: Usporedba distribucija 50 aritmetikih sredina uzoraka veliina n=30, n=300 i n=800
n = 30
n = 300
25
12
10
20
8
15
f 6
f
10
4
2
1291 - 1310,5
1271 - 1290,5
1251 - 1270,5
1231 - 1250,5
1211 - 1230,5
1191 - 1210,5
1171 - 1190,5
1151 - 1170,5
1131 - 1150,5
1091 - 1110,5
1111 - 1130,5
1291 - 1310,5
1271 - 1290,5
1251 - 1270,5
1231 - 1250,5
1211 - 1230,5
1191 - 1210,5
1171 - 1190,5
1151 - 1170,5
1131 - 1150,5
1111 - 1130,5
1091 - 1110,5
n = 800
40
35
30
25
f 20
15
10
5
1291 - 1310,5
1271 - 1290,5
1251 - 1270,5
1231 - 1250,5
1211 - 1230,5
1191 - 1210,5
1171 - 1190,5
1151 - 1170,5
1131 - 1150,5
1111 - 1130,5
1091 - 1110,5
moemo doi jeste ona preko standardne devijacije uzorka, a koja se naziva standardna
pogreka aritmetike sredine i koja se rauna prema formuli:
sM = s / N
7. obzirom da je rije o normalnoj distribuciji, i za distribuciju aritmetikih sredina uzoraka
vrijede principi po kojima kada aritmetikoj sredini te distribucije dodamo jednu, dvije,
odnosno tri standardne devijacije te distribucije, obuhvatamo raspon od 68,26, 95,44,
odnosno 99,73% rezultata te distribucije. Jo jednom, (a) rezultati koji ine distribuciju
aritmetikih sredina uzoraka nisu nita drugo do aritmetike sredine svih sluajnih uzoraka
iste veliine koji se mogu izvui iz poetne populacije; (b) aritmetika sredina te
distribucije nije nita drugo do prava aritmetika sredina populacije; (c) standardna
devijacija te distribucije nije nita drugo do standardna pogreka aritmetike sredine.
Grafiki, distribucija aritmetikih sredina uzoraka izgledala bi kao to je prikazano na slici
7.2.
Slika 7-1. Distribucija aritmetikih sredina uzoraka
Slika 7.1.4.: Distribucija aritmetikih sredina uzoraka
Postotak rezultata koji se nalaze u naznaenim intervalima oko aritmetike sredine raspodjele
(a to je populacijska aritmetika sredina) nije nita drugo do vjerovatnoama da emo kada po
sluaju izvlaimo jedan rezultat iz ove raspodjele dobiti rezultat ba iz tog intervala.
Prilikom izvlaenja sluajnog uzorka iz populacije i raunanja njegove aritmetike sredine mi
radimo upravo to iz distribucije aritmetikih sredina uzoraka po sluaju izvlaimo jednu
aritmetiku sredinu. Pri tome imamo vjerovatnou od 68,26, 95,44, odnosno 99,73% da emo
izvui aritmetiku sredinu koja je od populacijske aritmetike sredine () udaljena manje od jedne,
dvije, odnosno tri standardne pogreke aritmetike sredine (sM).
Koristei se obratnom logikom ako naoj aritmetikoj sredini uzorka (M) dodamo i
oduzmemo jednu, dvije, odnosno tri standardne pogreke aritmetike sredine (sM) imaemo ansu od
68,26, 95,44, odnosno 99,73% da emo u istom tom intervalu obuhvatiti i pravu populacijsku
aritmetiku sredinu. U svrhu ilustracije ta je situacija prikazana na slici 7.3.
109
s
N
259,76
800
= 9,18
Ako ovu vrijednost jednom, dva, odnosno tri puta dodamo i oduzmemo vrijednosti M dobit emo
sljedee intervale:
Interval I: 1193,36 - 1211,72
Interval II: 1184,17 - 1220,91
Interval III: 1174,99 - 1230,09
Kao to vidite, svi ovi intervali sadre vrijednost populacijske aritmetike sredine,
=1200,47 KM. Dakle, u stvarnim istraivanjima provedenim na uzorcima mi nikada neemo znati
tanu vrijednost populacijske aritmetike sredine; najvie to emo moi uiniti jeste odrediti
interval u kojem se sa odreenim stepenom sigurnosti ta aritmetika sredina nalazi. Ti intervali
nazivaju se intervalima pouzdanosti i vezuju se uz odreeni stupanj sigurnosti da se u njima
nalazi traena vrijednost populacijske aritmetike sredine. Tako, za interval I sa 68,26% sigurnosti
tvrdimo da se u njemu nalazi populacijska aritmetika sredina; za interval II to tvrdimo sa 95,44%
sigurnosti; za interval III sa 99,73% sigurnosti.
110
PRIMJER 7.3
U primjeru 5.6 opisali smo eksperiment studenata psihologije sa bacenjem para igraih
kockica 900 puta. Sada emo iste dobivene rezultate iskoristiti za ilustraciju principa uzorkovanja i
distribuiranja aritmetikih sredina uzoraka oko prave (populacijske) aritmetike sredine .
Pri tome emo, naravno, krenuti od populacije. Nau populaciju u ovom sluaju ini 900
rezultata dobivenih bacanjem para kocaka (mogui rezultati kreu se u rasponu od 2 do 12).
Prisjetimo se i izgleda raspodjele rezultata koje dobijemo bacajui par kocaka 900 puta (vidi sliku
5.2.3). Ta je raspodjela ponovo prikazana na slici 7.1.1 i ovaj put je nazvana populacijskom
raspodjelom (obzirom da predstavlja nau populaciju od N=900 rezultata). Ve znamo da ova
distribucija ima =7,13 i =2,43.
0,18
140
0,16
120
0,14
0,12
100
0,1
f 80
0,08
60
0,06
40
0,04
20
0,02
0
1
10
11
12
13
Rezultat
Svaki par studenata dvije kockice je bacao po 20 puta. Ukupno je bilo 45 parova studenata,
ime dobivamo nau populaciju od ukupno 900 rezultata. Obzirom da rezultati svakog pojedinog
para studenata mogu predstavljati jedan od moguih uzoraka koji se moe izvui iz nae populacije,
ove skupove od po 20 rezultata koje su dobili pojedinani parovi studenata od sada emo nazivati
uzorcima. Vano je napomenuti da su svi uzorci iste veliine, n=20. U tabeli 7.1.1 prikazane su
aritmetike sredine za 45 uzoraka.
Na osnovu aritmetikih sredina pojedinanih uzoraka moemo izraunati zajedniku
aritmetiku sredinu, odnosno aritmetiku sredinu aritmetikih sredina uzoraka te standardnu
devijaciju ove distribucije aritmetikih sredina uzoraka. Kako bismo ovu zajedniku aritmetiku
sredinu razlikovali od aritmetike sredine populacije () i aritmetikih sredina pojedinanih uzoraka
(M), oznait emo je sa X. Standardnu devijaciju aritmetikih sredina uzoraka oko njihove
zajednike aritmetike sredine oznait emo sa s.
111
R. br.
uzorka
R. br.
uzorka
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
7,40
6,25
6,55
7,45
8,35
7,80
7,60
6,60
6,20
7,15
6,70
7,80
7,60
7,55
7,60
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
7,45
6,25
8,05
7,05
7,05
7,15
7,15
7,05
7,50
6,55
7,05
7,80
6,70
7,05
6,25
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
7,60
8,00
7,45
7,50
6,80
6,05
6,30
7,15
8,45
7,00
6,90
6,75
6,45
6,35
7,25
N
X'
s'
45
7,127
0,597
Dakle, aritmetika sredina pojedinanih uzoraka iznosi X=7,13. Kao to vidite, aritmetika
sredina distribucije aritmetikih sredina uzoraka iste veliine koji su po sluaju izvueni iz
populacije istovjetna je populacijskoj (pravoj) aritmetikoj sredini.
Aritmetike sredine pojedinih uzoraka distribuiraju se oko ove zajednike (tj. populacijske)
aritmetike sredine u obliku normalne distribucije.
Iako gornja tvrdnja vrijedi za veliki broj uzoraka (teoretski, za beskonano veliki broj uzoraka
iste veliine koji se izvlae iz beskonano velike populacije), tendencija normalnog distribuiranja
aritmetikih sredina uzoraka oko populacijske aritmetike sredine primjetna je i na grafikom
prikazu distribucije naih 45 aritmetikih sredina (slika 7.1.2). [Ukoliko bismo iz nae populacije od
N=900 nastavili izvlaiti nove i nove uzorke veliine n=20, donja distribucija bi sve vie nalikovala
normalnoj distribuciji].
8
6
4
2
0
6
6,5
7,5
8,5
s
sM =
113
M= 7,73
X' = =7,13
X's M
9,50
9,25
9,00
8,75
8,50
8,25
8,00
7,75
7,50
7,25
7,00
6,75
6,50
6,25
6,00
5,75
5,50
5,25
5,00
4,75
4,50
68,26%
95,44%
X'1,96s M
99,73%
X'2,58s M
Ako sada jo jednom primjenimo istu logiku samo u obratnom smjeru moemo zakljuiti
sljedee: ako aritmetikoj sredini jednog uzorka dodamo i oduzmemo jednu, dvije, odnosno tri
standardne pogreke aritmetike sredine, imat emo 68,26%, 95,44%, odnosno 99,73% anse da u
dobivenim intervalima obuhvatimo i vrijednost prave aritmetike sredine (vidi gornju sliku).
Razlog zato aritmetikoj sredini uzorka dodajemo i oduzimamo standardnu pogreku
aritmetike sredine jeste taj to mi ne znamo koja je vrijednost standardne devijacije u distribuciji
aritmetikih sredina uzoraka (podsjeamo, iz populacije izvlaimo samo jedan uzorak). Standardna
pogreka aritmetike sredine slui nam kao procijena vrijednosti standardne devijacije
distribucije aritmetikih sredina uzoraka!
Prema tome, koristei formulu za standardnu pogreku aritmetike sredine:
s
sM =
sM =
2,28
20
= 0,51
Kao to se moe vidjeti, rije je o vrlo bliskoj vrijednosti standardne pogreke koju smo
izraunali kao standardnu devijaciju distribucije aritmetikih sredina 45 uzoraka (sM = 0,60).
Da zakljuimo: na temelju vrijednosti M i s uzorka te njegove veliine, moemo (raunajui
standardnu pogreku aritmetike sredine uzorka) doi do procjene o vrijednosti aritmetike sredine
populacije!
114
PRIMJER 7.3
Ljekar ope prakse eli doi do informacije o prosjenoj visini populacije djeaka izmeu 10 i
12 godina Kantona Sarajevo. Meutim zbog praktine neizvodljivosti, ljekar niti ne razmilja o
provoenju istraivanja na cjelokupnoj populaciji. Umjesto toga, svoje e istraivanje provesti na
reprezentativnom (sluajnom) uzorku uenika sarajevskih osnovnih kola koji imaju izmeu 8 i 10
godina. Uzorak broji 350 uenika. Vrijednosti utvrene na uzorku su:
M = 139,36 cm
s = 26,22 cm
Na temelju ovih vrijednosti mogue je procijeniti prosjenu visinu muke djece ovog uzrasta u
pripadajuoj populaciji (i uz svaku procjenu mogue je navesti i stupanj sigurnosti da je tana).
Prvo to je ljekar uradio sa dobivenim statisticima jeste da je izraunao standardnu pogreku
aritmetike sredine:
sM =
s
N
26,22
350
= 1,40
137,96 140,76
139,36 2 x 1,40:
136,56 142,16
139,36 3 x 1,40:
135,16 143,56
U svom zavrnom izvjetaju ljekar je naveo da sa 95% sigurnosti tvrdi da se prava prosjena
visina (svih) djeaka izmeu 10 i 12 godina u Kantonu Sarajevo nalazi u intervalu od 136,56 do
142,16 cm.
Dakle, intervale koje dobijemo kada aritmetikoj sredini uzorka na jednoj strani oduzmemo i na
drugoj strani dodamo jednu, dvije, odnosno tri standardne pogreke aritmetike sredine nazivamo
intervalima pouzdanosti aritmetike sredine. Uz svaki interval pouzdanosti vezuje se odreeni
stepen sigurnosti da se u njemu nalazi prava (populacijska) aritmetika sredina (ti odgovarajui
stupanj sigurnosti su 68%, 95%, odnosno 99%).
115
ZADACI
1.
2.
Za koliko bismo trebali promijeniti veliinu uzorka da bismo standardnu pogreku aritmetike
sredine smanjili za pola; da bismo standardnu pogreku aritmetike sredine smanjili za 4 puta?
3.
4.
5.
6.
7.
8.
Iz tabele 7.1.3 po sluaju odaberite jedan uzorak veliine n=30. Na temelju tog uzorka
procijenite populacijsku aritmetiku sredinu mjesenih primanja u populaciji. Da li vrijede
pravila navedena u uvodnom dijelu?
Ponovite isti postupak kao u prethodnom zadatku, sa jednim uzorkom veliine n=300 koji ste
ponovo po sluaju izvukli iz tabele 7.1.3 Objasnite kako veliina uzorka utie na tanost
procjene populacijske aritmetike sredine.
116
8. Testiranje hipoteza
117
Statistiki test je postupak pomou kojeg se dolazi do odluke o prihvatanju ili odbacivanje
nulte hipoteze. Zasniva se na sluajnoj varijabli X kojom se matematiki definira distribucija
statistika uzoraka (npr. aritmetikih sredina, razlika izmeu dvije aritmetike sredine, varijanci,
medijana). Statistik uzorka (aritmetika sredina, razlika izmeu aritmetikih sredina, varijanca) je
vrijednost koja se nalazi u odreenom rasponu. Skup vrijednosti statistika za koje odbacujemo
hipotezu H0 nazivamo oblast odbacivanja ili kritina oblast. Veliina oblasti odbacivanja H0
odreena je vjerovatnoom () pojavljivanja statistika uzorka u kritinoj oblasti. Ova vjerovatnoa
naziva se nivo znaajnosti testa i odreuje se kao vjerovatnoa da e vrijednost sluajne varijable X
pasti u kritinu oblast. Nivo znaajnosti moe biti odreen arbitrarno, npr. 0,05 ili 0,01. Na osnovu
unaprijed odreenog nivoa znaajnosti (tj. kritine oblasti) odreujemo i kritine vrijednosti
statistika, tj. granine vrijednosti kritine oblasti.
Na osnovu vrijednosti statistika i kritine oblasti, donosimo zakljuak. Ako statistik testa
pada u oblast odbacivanja, odbacujemo H0. Ako statistik testa nije u oblasti odbacivanja, prihvatamo
H0 (drugim rijeima, ako pada u oblast prihvatanja H0). Praktino, kada je p<, test sugerira
odbacivanje H0 (statistiki znaajno).
Neka je nulta hipoteza da izmeu aritmetike sredine uzorka podataka i aritmetike sredine populacije nema
razlike. Zamislimo da provodimo sljedei eksperiment: iz ciljne populacije metodom sluajnog odabira
formiramo uzorak iste veliine kao i uzorak za iju aritmetiku sredinu testiramo nultu hipotezu. Za ovaj
uzorak izraunamo aritmetiku sredinu. Zatim podatke uzorka vratimo u populaciju i ponovimo isti
postupak: formiramo novi uzorak, izraunamo njegovu aritmetiku sredinu i podatke vratimo u populaciju.
Opisani postupak ponovimo veliki broj puta. Na ovaj nain dobit emo veliki broj aritmetikih sredina
uzoraka. Distribucija aritmetikih sredina uzoraka opisana je sluajnom varijablom X ije se vrijednosti
normalno distribuiraju. Ova distribucija zapravo je distribucija statistika uzoraka. Aritmetika sredina
statistika uzoraka jednaka je aritmetikoj sredini populacije. Standardna devijacija statistika uzoraka zapravo
je standardna pogreka aritmetikih sredina uzoraka. Region odbacivanja H0, granine vrijednosti i region
prihvatanja H0 odreujemo arbitrarno. Distribucija statistika uzoraka, granine vrijednosti i regioni
prihvatanja i odbacivanja H0 prikazani su ispod.
granina
vrijednost
region prihvatanja
region odbacivanja
Izbor statistikog testa zavisi i od skale mjerenja i oblika raspodjele podataka. Zapravo,
statistike testove dijelimo na parametrijske i neparametrijske. Parametrijski testovi koriste se za
provjeru hipoteza o nepoznatoj vrijednosti parametara populacije; preduvjet za njihovo koritenje je
intervalni/ racio nivo mjerenja. Parametrijski testovi se vre na osnovu nekih od teorijskih
raspodjela: normalne, Studentove t-raspodjele, F-raspodjele, binomne raspodjele, itd. Kada su
podaci prikupljeni koritenjem nominalne ili rang skale mjerenja i kada podaci prikupljeni
intervalnom ili racio skalom mjerenja ne zadovoljavaju odreene karakteristike distribucije,
koristimo neparametrijske testove.
Ispod je dat shematski prikaz izbora statistikog testa zavisno od istraivakog problema,
skale mjerenja i odreenih preduvjeta potrebnih za pojedine testove, prema Barry Cohenu4.
120
Ukoliko nam istraivaki nacrt nalae da ispitamo razlike u verbalnim sposobnostima izmeu
mukaraca i ena (tj. izmeu dva nezavisna uzorka), a da smo pri tom podatke prikupili koristei
intervalni nivo mjerenja, i da su podaci normalno rasporeeni, onda emo koristiti t-test. Meutim,
ukoliko su podaci izrazito asimetrine raspodjele, onda e odgovarajui statistiki test biti MannWhitneyev test, a ne t-test.
Kada testiramo hipotezu prolazimo odreene korake. Zavisno od problema istraivanja
postavljamo statistiku nultu hipotezu, te biramo odgovarajui test. Nadalje, na osnovu prihvaenog
nivoa znaajnosti odreujemo granine vrijednost (definiramo oblast prihvatanja H0), odreujemo
statistik testa i poredimo izraunati statsitik s graninom vrijednosu. Na kraju donosimo odluku.
121
Ako se statistik testa nalazi u kritinoj oblasti odbacujemo H0, ako ne, prihvatamo H0. Shematski
prikaz koraka u testiranju hipoteza dat je ispod.
Problem istraivanja
Odabir uzorka
Deskriptivne vrijednosti
Izbor statistikog testa
Nivo znaajnosti
Statistik testa u
kritinoj
oblasti?
NE
Prihvata se H0
DA
Odbacuje se H0
koristimo z-test ili t-test za jedan uzorak. Prvi test koristimo kada je poznata populacijska vrijednost
varijance, a t-test kada nam ova vrijednost nije poznata, pa o njoj zakljuujemo na osnovu varijance
uzorka.
Postupak testiranja hipoteze s jednim uzorkom temelji se na central-limit teoremi (eng.
central limit theorem), jednoj od najpoznatijih teorema u statistici. Prema ovoj teoremi, raspodjela
aritmetikih sredina uzoraka pribliava se normalnoj distribuciji s poveanjem veliine uzorka.
Nadalje, u populaciji sa aritmetikom sredinom i varijancom 2, distribucija aritmetikih sredina
uzoraka imat e aritmetiku sredinu M= i varijancu jednaku 2M= 2/N. Na osnovu central-limit
teoreme, poznate su nam sve vane karakteristike raspodjele (oblik, aritmetika sredina i varijanca),
to nam omoguava testiranje hipoteza o aritmetikim sredinama.
Na grupi uenika (N=100) primjenjen je test inteligencije. Dobivena je aritmetika sredina M=105. Da li se
ova grupa uenika prema mjerenom svojstvnu razlikuje od populacije? Pretpostavimo da nam je poznata
aritmetika sredina populacije, =100.
- Nulta hipoteza: Grupa uenika ne razlikuje se statistiki znaajno od populacije u intelektualnim
sposobnostima.
- Alternativna hipoteza: Grupa uenika razlikuje se statistiki znaajno od populacije u intelektualnim
sposobnostima.
Kako bi utvrdili lokaciju na koju pada statistik uzorka (aritmetika sredina grupe) dobiveni rezultat, tj.
aritmetiku sredinu treba pretvoriti u z-vrijednost. Kada smo odredili z-vrijednost, koristei tabelu za
standardnu normalnu distribuciju, moemo jednostavno odrediti oblast ispod ili iznad z-vrijednosti.
Dakle, koristit emo izraz:
gdje je M aritmetika sredina uzorka, aritmetika sredina populacije, M standardna devijacija distribucije
uzoraka.
Kako bi odredili standardnu devijaciju distribucije uzoraka trebamo poznavati standardnu devijaciju
populacije. Ovaj parametar obino ne poznajemo, ali za neke varijable (kao to je IQ) standardna devijacija
je poznata (jer se rezultati standardiziraju na velikim uzorcima). Pretpostavimo da je =20. Odredit emo zvrijednost:
M
105 100
2,5
20
sM
100
z-vrijednost iznosi 2,5. Sada moemo odrediti oblasti ispod i iznad izraunate z-vrijednosti. Iz tablice moemo
odrediti da je povrina od z=2,5 do kraja krivulje p=0,0062. Prema tome, vjerovatnoa da emo dobiti
vrijednost veu od M=105 (uz uvjet da je uzorak veliine N=100) je veoma mala. Ako bi zamiljeni
eksperiment formiranja velikog broja uzoraka i odreivanja distribucije statistika uzoraka ponovili 1000 puta,
123
tek bi u est sluajeva dobili aritmetiku sredinu uzorka veu od 105. Da li nam je ovo dovoljno za tvrdnju da
je razlika statistiki znaajna? Odgovor na ovo pitanje zavisi od unaprijed definirane kritine oblasti. Uz uvjet
da je nivo znaajnosti =0,05 statistik pada u oblast odbacivanja nulte hipoteze. Odnosno, trebamo uporediti
p-vrijednost i nivo znaajnosti =0,05. Obzirom da je p<,, test sugerira odbacivanje H0.
Statistiki zakljuak mogli smo izvui i na osnovu uporeivanja dobivenog statistika sa kritinom vrijednosti.
Uz nivo znaajnosti od =0,05, granina vrijednost iznosi zgr=1,66. Graninu vrijednost oitavamo iz tablice
za standardnu normalnu distribuciju.
Obzirom da je:
z > zgr,
zakljuujemo da statistik pada u oblast odbacivanja nulte hipoteze. Ispod je ilustrirana distribucija statistika i
poloaj statistika grupe uenika.
region prihvatanja
zgr=1,66
z=2,5
region odbacivanja
Vrijednost u zagradi predstavlja korigirani broj rezultata ili stepene slobode (SS).
M
sM
1. to je veliina uzorka vea, to je t-raspodjela slinija normalnoj. Kaemo da kada N, tdistribucija postaje ekvivalentna z-distribuciji.
Na grupi uenika (N=25) primjenjen je test inteligencije. Dobivena je aritmetika sredina M=105. Da li se
ova grupa uenika prema mjerenom svojstvu razlikuje od populacije? Pretpostavimo da nam je poznata
aritmetika sredina populacije, =100.
Nulta hipoteza: Grupa uenika ne razlikuje se od populacije u intelektualnim sposobnostima.
Alternativna hipoteza: Grupa uenika razlikuje se od populacije u intelektualnim sposobnostima.
Izraunat emo t-vrijednost:
M
105 100
5
1,66
15
sM
3
25
Iz tabele t-vrijednosti oitat emo graninu t-vrijednost za SS=24 uz nivo rizika od =0,05:
tgr=1,711.Obzirom da je:
t<tgr,
zakljuujemo da na statistik pada u oblast prihvatanja H0.
pogreka tipa I odbacivanje nulte hipoteze ako je ona istinita (vjerojatnost njenog
pojavljivanja je nivo znaajnosti );
pogreka tipa II prihvaanje nulte hipoteze ako je ona lana.
125
Ispravna odluka
lano pozitivan
(p=1-)
Ispravna odluka
(p=1-)
lano negativan
Odbacujemo nul-hipotezu
Prihvaamo nul-hipotezu
126
PRIMJER 8.1
Poimo od hipoteze da je kod bacanja ispravnog novia vjerovatnoa pojavljivanja pisma
p=0,5. Pretpostavimo da smo kod 20 bacanja novia u 17 sluajeva dobili pismo. Rezultat ovog
eksperimenta nije apsolutni dokaz da je novi neispravan (ili da je eksperiment proveden na
neispravan nain) jer nije nemogue da se ovakav rezultat dobije (ak i kod ispravnog novia).
Meutim, iz iskustva znamo da se ovo rijetko moe desiti sa ispravnim noviem. Dobivanje 10 ili
11 pisama ne bi izazvalo sumnju uz hipotezu da je p=0,5, dok 18 ili 19 sluajeva pisma prua
osnovu za odbacivanje ove hipoteze kao malo vjerovatne. Drugim rijeima, rezultat naeg
eksperimenta dovoljan je dokaz protiv hipoteze p=0,5, a u korist hipoteze p>0,5. Gdje je granica
izmeu prihvatanja i odbacivanja hipoteze? Da li je to pojavljivanje pisma 13, 14 ili 15 puta?
Statistika teorija testiranja hipoteza omoguava kvantifikaciju stupnja sumnje u neku hipotezu.
PRIMJER 8.2
Pretpostavimo da smo proveli istraivanje u kojem smo pitali studente koliko sati spavaju.
Obzirom na obaveze prema studiju, te njihov stil ivota, oekujemo da u prosjeku studenti spavaju
manje od prosjeka populacije. Kako bi ispitali ovu tvrdnju provedeno je istraivanje, prikupljeni su
podaci i testirana je hipoteza.
Nulta hipoteza: Studenti spavaju isto kao i prosjek populacije:
Mgrupe=populacije
Alternativna hipoteza: Studenti spavaju manje od prosjeka populacije:
Mgrupe>populacije
Istraivanje je provedeno na uzorku od 100 studenata. Nakon prikupljanja podataka, utvreno
je da studenti u prosjeku spavaju M=6,5 sati. Aritmetika sredina populacije iznosi =8 (znamo da u
prosjeku ovjek tokom 24 sata provede 8 sati spavajui), dok standardna devijacija iznosi =2,5.
Provjeravamo razliku izmeu aritmetike sredine jedne grupe i aritmetike sredine populacije.
Obzirom da nam je poznata standardna devijacija populacije, hipotezu emo testirati z-testom za
jedan uzorak.
M 6,5 8 1,5
6
2,5
sM
0,25
100
PRIMJER 8.3
Da li djeca koja su bila izloena traumatskim dogaajima ispoljavaju statistiki znaajno vie
problema u ponaanju u odnosu na djecu koja nisu bila izloena traumatskim dogaajima? Na grupi
od 120 djece koja su bila izloena traumatskim dogaajima primjenjen je upitnik pomou kojeg se
ispituju problemi u ponaanju djece i mladih. Aritmetika sredina ove grupe djece na ovom upitniku
iznosi M = 55,0 uz s=10. Da li je aritmetika sredina grupe djece koja su bila izloena velikom broju
traumatskih iskustava statistiki znaajno vea od aritmetike sredine populacije? Poznat nam je
parametar populacije: = 50.
Nulta hipoteza: Broj problema u ponaanju djece koja su bila izloena traumatskim iskustvima
ne razlikuje se statistiki znaajno od broja problema u populaciji njihovih vrnjaka:
Mgrupe=populacije.
Nultu hipotezu mogli smo formulirati i kao: Grupa djece koja su uestvovala u istraivanju
pripada populaciji ija je aritmetika sredina =50.
Alternativna hipoteza: Djeca koja su doivjela traumatska iskustva iskazuju statistiki
znaajno vei broj problema u ponaanju od djece iz populacije njihovih vrnjaka bez traumatskih
iskustava:
Mgrupe>populacije.
Obzirom da nam nije poznata standardna devijacija populacije, hipotezu emo testirati ttestom za jedan uzorak. Neka je nivo znaajnosti p=0,05, a testiranje dvosmjerno.
55 50
5
5,49
10
s
0,91
120
ZADACI
1.
Pretpostavimo da direktor jedne osnovne kole tvrdi da uenici te kole u prosjeku dnevno ue
6 sati. Opiite postupak kojim bi smo provjerili tvrdnju direktora.
2.
3.
4.
5.
6.
7.
Jednu osnovnu kolu pohaa 500 uenika. Direktor te kole smatra da su uenici te kole
iznadprosjenih intelektualnih sposobnosti. Prema njegovom miljenju, prosjeni kvocijent
inteligencije (IQ ) iznosi najmanje 110. U cilju provjere ove tvrdnje, provedeno je ispitivanje
inteligencije na sluajno odabranom uzorku od 40 uenika. Prosjena vrijednost na testu
inteligencije iznosila je M=107, a standardna devijacija 10. Na osnovu dobivenih rezultata
izvedite zakljuak o prihvatanju ili odbacivanju tvrdnje direktora. Hipotezu testirajte uz nivo
znaajnosti od 0,01.
8.
9.
10.
Trener lokalnog koarkakog kluba eli znati da li se prosjean broj koeva koje igrai
njegovog kluba postignu tokom sezone takmienja znaajno razlikuje od dravnog prosjeka.
Pretpostavimo da na nivou drave prosjean broj ubaenih koeva iznosi =65, a standardna
devijacija =8. Prosjean broj koeva njegovog tima je M=68. Da li ovaj tim postie vie
koeva od dravnog prosjeka? Testirajte hipotezu uz nivo znaajnosti od 0,05.
130
Zamislimo da imamo dvije identine populacije sa identinim parametrima (ili da smo jednu populaciju
klonirali pa njen klon posmatrali kao drugu populaciju). Iz prve populacije metodom sluajnog odabira
formiramo uzorak i izraunamo aritmetiku sredinu. Zatim iz druge populacije metodom sluajnog odabira
formiramo uzorak, iste veliine kao i prvi uzorak, i izraunamo aritmetiku sredinu. Zatim podatke uzoraka
vratimo u populacije. Opisani postupak ponovimo veliki broj puta, i svaki put izraunamo i razliku izmeu
dvije aritmetike sredine. Na ovaj nain dobit emo veliki broj razlika izmeu aritmetikih sredina uzoraka.
Distribucija razlika aritmetikih sredina uzoraka opisana je sluajnom varijablom X ije se vrijednosti
rasporeuju prema t-raspodjeli. Aritmetika sredina razlika izmeu aritmetikih sredina parova uzoraka
jednaka je razlici izmeu aritmetikih sredina populacija, odnosno jednaka je 0. Standardna devijacija razlika
aritmetikih sredina zapravo je standardna pogreka razlike aritmetikih sredina uzoraka.
sM1-M2
s1
s
2
N1
N2
Prema H0 razlika izmeu dvije aritmetike sredine nee biti statistiki znaajna, tj. u
raspodjeli e se pozicionirati oko aritmetike sredine (preciznije, oko vrijednosti M1-M2=0) (u tom
sluaju zakljuujemo, npr., da novi antidepresiv nije znaajno efikasniji od klasinog; nova metoda
poduavanja iz fizike nije bolja od stare).
132
Nasuprot tome, prema alternativnoj hipotezi, razlika izmeu dvije aritmetike sredine e biti
dovoljno velika (u apsolutnim vrijednostima) da e u t-distribuciji izlaziti izvan intervala M1-M2
1,96sM1-M2 , uz nivo znaajnosti od 5% ili intervala M1-M2 2,58sM1-M2 , uz nivo znaajnosti od 1%
(ovo vrijedi za velike uzorke, tj. n>40). Dakle, da bismo je proglasili statistiki znaajnom na nivou
znaajnosti od 5%, odnosno od 1%, razlika izmeu dvije aritmetike sredine mora biti 1,96, odnosno
2,58 puta vea od svoje pogreke. U tom sluaju iz naih primjera zakljuujemo: da je novi
antidepresiv u suzbijanju simptoma depresije efikasniji od klasinog; uenici koji su uili fiziku po
novoj metodi postiu bolje rezultate od uenika koji su uili po staroj metodi itd.
Statistiki postupak koji nam omoguava da utvrdimo odnos razlike izmeu dvije aritmetike
sredine i standardne pogreke te razlike se naziva t-test i rauna se prema formuli:
razlika izmeu aritmetikih sredina
t=
pogreka razlike
tj.:
M1 M2
sM1-M2
M1 M2
sM1 sM2 2r1,2sM1sM2
2
133
vea s2
manja s2
Ako je gornji F-omjer statistiki neznaajan (to opet utvrujemo pomou tablice graninih F
vrijednosti za testiranje razlika meu varijancama) izraunavanje t-testa emo nastaviti prema
sljedeoj proceduri:
Zajednika s =
sM1-M2 =
(X - M1)2 + (X - M2)2
(N1 - 1) + (N2 - 1)
Zajednika s
t=
N1 + N2
N1N2
M1 - M2
sM1-M2
SS = (N1 1) + (N2 1)
134
PRIMJER 9.1
U primjeru 7.1 smo iz poetne populacije od 10000 zaposlenih graana zamiljenog malog
mjesta formirali distribuciju aritmetikih sredina 50 uzoraka veliine n=800. Na osnovu ovih
aritmetikih sredina moemo vrlo jednostavno formirati distribuciju razlika aritmetikih sredina ovih
uzoraka: izraunat emo razlike za sve mogue parove ovih aritmetikih sredina (M1-M2, M1-M3,
M1-M4,... M2-M3, M2-M4, M2-M5... M49-M50). Kako se ukupno moe nainiti 12255 ovakvih parova,
tako emo dobiti i distribuciju od ukupno 1225 razlika izmeu aritmetikih sredina.
U tabeli 9.1.1 i na slici 9.1.1 predstavljene su deskriptivne vrijednosti i izgled distribucije
aritmetikih sredina 50 uzoraka:
Tabela 9.1.1: Deskriptivne vrijednosti distribucije razlika aritmetikih sredina 50 uzoraka
veliine n=800 (ukupno 1225 razlika)
M
Medijan
Skjunis
Kurtozis
Raspon
Minimum
Maximum
-0,29
-0,22
11,95
-0,02
-0,61
61,84
-32,05
29,79
26,71
23,71
20,71
17,71
14,71
11,71
8,71
5,71
2,71
-0,29
-3,29
-6,29
-9,29
-12,29
-15,29
-18,29
-21,29
-24,29
-27,29
-30,29
Broj moguih parova rauna se prema formuli k(k-1)/2, pri emu je k broj aritmetikih sredina.
135
nam je beskonano velika poetna distribucija iz koje formiramo beskonano veliki broj razliitih
uzoraka iste veliine; za potrebe nae demonstracije i ovaj primjer e biti sasvim zadovoljavajui.
Ono to u sutini radimo kada testiramo znaajnost razlike izmeu aritmetikih sredina dva
uzorka jeste da iz teorijske distribucije razlika izmeu aritmetikih sredina (koja ima M1-M2=0 i
ija je standardna devijacija standardna pogreka razlike izmeu aritmetikih sredina) izvlaimo
jednu razliku izmeu dvije aritmetike sredine (naih konkretnih uzorka) i procjenjujemo
vjerovatnou javljanja te razlike po sluaju. Ako je ta vjerovatnoa vea od 5%, odnosno od 1% razliku neemo proglasiti statistiki znaajnom na nivou znaajnosti od 5%, odnosno 1%. Ako je,
pak, ta vjerovatnoa mala, tj. manja od 5%, odnosno 1%, onda tu razliku proglaavamo statistiki
znaajnom na nivou od 5%, odnosno od 1%.
Zamislimo da smo iz nae poetne populacije izvukli dva sluajna uzorka, npr. uzorke pod
rednim brojem 7 i 12 sa sljedeim deskriptivnim vrijednostima:
Tabela 9.1.2: M i s prosjenih mjesenih primanja (u KM) u dva sluajna uzorka
Redni broj
uzorka
800
1201,27
252,40
17
800
1209,66
264,35
Prema H0 smatramo da je razlika izmeu ova dva uzorka rezultat sluajnih varijacija, tj. da
ona nije statistiki znaajna; drugim rijeima, prema H0 smatramo da ova dva uzorka pripradaju
istoj populaciji.
Prema alternativnoj hipotezi (H1), razlika izmeu ova dva uzorka je statistiki znaajna, tj.
posljedica je djelovanja nekog sistematskog (sistematskih) faktora. Drugim rijeima, ova dva uzorka
reprezentiraju dvije razliite populacije.
Obzirom da znamo da su oba uzorka izvuena iz iste populacije (zaposlenih osoba koje ive
u istom mjestu) pretpostavljamo da razlika nee biti statistiki znaajna. Ipak, da bismo bili sigurni
da uoena razlika izmeu aritmetikih sredina nije statistiki znaajna nuno je provesti t-test:
t=
M1 M2
sM1-M2
t=
M1 M2
-8,39
12,92
136
s12
N1
-0,65
s22
N2
Dakle, i statistiki smo potvrdili da naa dva uzorka dolaze iz iste poetne populacije: t-test
(t-omjer) nam pokazuje da razlika izmeu dvije aritmetike sredine nije dva puta vea od svoje
pogreke, tako da je neemo proglasiti statistiki znaajnom na nivou od 5% znaajnosti.
Obzirom da su oba uzorka relativno velika i iste veliine, u ovom primjeru ne moramo
konsultirati tablice za oitanje znaajnosti rezultata t-testova. Ipak, standardna procedura za
zakljuivanje o statistikoj znaajnosti nekog t-testa podrazumijeva konsultiranje graninih
vrijednosti t uz zadani broj stupnjeva slobode. Stupnjevi slobode u sluaju velikih nezavnisnih
uzoraka raunaju se prema formuli:
SS = (n1 1) + (n2 1)
SS = 799 + 799 = 1598
Granina vrijednost za utvreni SS na nivou znaajnosti od 5% iznosi tgr = 1,96.
Obzirom da je t<tgr, prihvatamo H0 i to statistiki izraavamo kao:
t(1598) = -0,65; p>0,05.
Zamislimo sada malo realniju situaciju. Istraivaa interesira da li postoji statistiki znaajna
razlika u prosjenim mjesenim primanjima mukaraca i ena. Kako bi to utvrdio, istraiva je u
istoj anketi u kojoj je ispitanike pitao o njihovim primanjima zabiljeio i spol ispitanika. Anketirano
je ukupno 436 ena i 312 mukaraca iz poetne populacije od 10000 zaposlenih graana.
Deskriptivne vrijednosti prikazane su u tabeli 9.1.3.
Tabela 9.1.3: M i s prosjenih mjesenih primanja (u KM) u skupini ena i mukaraca
Spol
436
1367,68
232,40
312
1051,89
198,73
total
1235,96
t=
315,79
15,83
19,95
SS = 746
Obzirom da je granina t-vrijednost za zadate stupnjeve slobode na nivou rizika od 5%
tgr=1,96, odnosno za 1% rizika tgr=2,58, zakljuujemo da je utvrena razlika izmeu prosjenih
primanja mukaraca i ena statistiki znaajna (tj. ene u prosjeku mjeseno zarauju statistiki
137
znaajno vie novca). Drugim rijeima, po svojim mjesenim primanjima ene i mukarci ine dvije
razliite populacije, to izraavamo na sljedei nain:
t(746) = 19,95; p<0,01
PRIMJER 9.2
Istraivaa interesira da li program strunog usavravanja ima utjecaja na visinu mjesenih
primanja uposlenika. U tu svrhu je utvrdio prosjena mjesena primanja 260 uposlenika nekoliko
firmi prije i nakon pohaanja 6-mjesenog kursa menadmenta. Deskriptivne vrijednosti prikazane
su u tabeli 9.2.1.
Tabela 9.2.1: M i s mjesenih primanja (u KM) prije i nakon treninga menadmenta
Mjerenje
Prije treninga
1150,00
181,21
Nakon treninga
1320,00
236,43
1150 1320
11,24 + 14,662 2*0,53*11,24*14,66
2
t=
-170,00
12,91
-13,17
SS = n 1 = 259
Odgovarajua granina vrijednost za nivo znaajnosti od 5%, odnosno za 1% koju
oitavamo iz tablice iznosi tgr=1,97, odnosno tgr=2,58. U skladu s tim zakljuujemo da obuka
uposlenika iz oblasti menadmenta statistiki znaajno poveava iznos njihovih primanja te
navodimo:
t(259) = -13,17; p<0,01
138
PRIMJER 9.3
Prema jednoj od teorija koje objanjavaju poremeaj deficita panje (PDP) kod djece, djeca
sa ovim poremeajem imaju ouvanu sposobnost selektivne panje sposobna su usmjeravati
panju na ciljne podraaje uz istovremeno zanemarivanje drugih, irelevantnih podraaja, ali imaju
potekoa u odravanju panje na ciljnom podraaju dui vremenski period koji je potreban za
uspjeno rjeavanje odreenog zadatka (dakle, oslabljena im je sposobnost tzv. odravane panje).
Kako bi testirao ovu hipotezu, psiholog je testirao grupu od 6 djece sa PDP i 9 djece bez ove
dijagnoze na testu odravane panje. [Ispitanici na testu odravane panje imaju zadatak da reagiraju
na svaku promjenu prezentiranog stimulusa na ekranu; mjeri se broj pogreaka, tj. broj proputenih
reakcija]. Rezultati za ove dvije skupine djece predstavljeni su u tabeli ispod:
Tabela 9.3.1: Broj pogreaka i deskriptivne vrijednosti djece sa i bez PDP na testu odravane panje
Djeca sa PDP
R.br.
Broj greaka
R.br.
Broj greaka
18
12
13
11
17
10
15
21
7,89
16,00
2,03
3,35
Da bismo provjerili moemo li u ovom sluaju raunati nekorigirani t-test, u prvom koraku
moramo utvrditi da li su varijance ova dva uzorka homogene:
F=
3,352
2,032
= 0,37
Zajednika s =
32,89 + 56
8+5
Zajednika s =
sM1-M2 = 0,73
0,73
9+6
9x6
sM1-M2 = 0,38
t=
7,89 - 16,00
0,38
t = -21,08
SS = 8 + 5 = 13
Granine vrijednosti koje oitavamo iz tablice t-vrijednosti za zadate stupnjeve slobode i
nivo rizika od 5%, odnosno 1% iznose: 2,16, odnosno 3,01. Dakle, navodimo;
t(13) = -21,08; p<0,01
Na osnovu dobivenog t-omjera moemo zakljuiti da djeca sa PDP, u odnosu na djecu bez ovog
poremeaja, imaju statistiki znaajno slabiju sposobnost odravanja panje kroz due vremenske
intervale.
PRIMJER 9.4
Grupa ispitanika uila je seriju besmislenih slogova. Poslije dva ponavljanja serije, broj
slogova koji su lanovi grupe tano reproducirali naveden je u koloni Prije u tabeli ispod. Nakon
toga, ispitanici su, tri dana po jedan sat, uili serije besmislenih slogova iste duine kao i u prvoj
seriji, ali su dobili nove instrukcije o metodama uspjenog pamenja. Poslije tri dana zadata je nova
serija besmislenih slogova iste duine i teine kao i prva serija i ponovljena je dva puta. Ispitanicu su
tada postigli rezultate predstavljene u koloni Poslije .
140
ISP.
Prije
Poslije
Prije
Poslije
Diferencijacija
(D)
d (D-MD)
d2
-2
-0,44
0,20
-1
0,56
0,31
-2
-0,44
0,20
-2
-0,44
0,20
-1
0,56
0,31
2,56
6,53
-3
-1,44
2,09
-3
-1,44
2,09
-1
0,56
0,31
D = -14
d2 = 12,22
MD = -1,56
sD = 1,24
Na osnovu sD izraunat emo standardnu pogreku aritmetike sredine razlika:
141
sD
sMD =
N
1,24
sMD =
sMD = 0,41
Konano, t-test raunamo prema formuli:
MD
t=
t=
sMD
-1,56
0,41
t = -3,78
Stupnjeve slobode raunamo prema formuli: SS=N-1, to u naem primjeru iznosi 8. Kako
je tgr=2,36 (za nivo od 5% rizika), odnosno tgr=3,36 (za nivo od 1% rizika), izraunati t-test proglaavamo statistiki znaajnim:
t(8) = -3,78; p<0,01,
i zakljuujemo da trodnevna vjeba i koritenje mnemotehnika znaajno unapreuje pamenje (besmislenih slogova).
142
ZADACI
1.
Pacijenti koji se lijee od depresije podijeljeni su u dvije skupine. Prvu skupinu ini 50
pacijenata koji su tokom dvije sedmice uzimali novi lijek za koji se smatra da umanjuje broj
simptoma. Druga skupina od 43 pacijenta za to vrijeme je bila bez medikamentoznog tretmana.
Nakon dvije sedmice ponovo je izmjeren broj simptoma kod obje skupine pri emu su
dobiveni sljedei rezultati:
1. skupina (podvrgnuta
tretmanu)
M = 14
M = 18
s = 3,2
s = 4,4
Ovi vozai su upueni na novi program edukacije. Nakon zavrene edukacije, psiholog je u
periodu od 12 mjeseci pratio navedenu grupu vozaa i registrirao broj prekraja koji je svaki
od njih nainio. Utvrdio je sljedee statistike pokazatelje:
M2 = 35 (prosjean broj prekraja u 12 mjeseci nakon edukacije)
s2 = 7
Korelacija izmeu broja prekraja nainjenih u dva perioda (prije i poslije edukacije) je r=0,69.
Da li je novi program edukacije uinkovit u smanjenju broja saobraajnih prekraja?
143
4. Test linosti ABC primjenjen je na dvije grupe uenika: prvoj grupi uenika koji se u koli
ponaaju neupadljivo, i drugoj grupi uenika sa odreenim problemima u ponaanju. Dobivene
su sljedee deskriptivne vrijednosti:
I grupa
II grupa
105,5
113
6,87
3,08
Da li se ove dvije grupe uenika znaajno razlikuju po prosjenim rezultatima na testu linosti?
5. Na testu verbalnih sposobnosti, grupa ispitanika iji roditelji imaju visoko ili vie obrazovanje
i grupa ispitanika iji roditelji imaju osnovno ili srednje obrazovanje postigle su sljedee
rezultate:
OBRAZOVANJE RODITELJA
Osnovno i
Visoko i vie
srednje
N
28
24
16,92
17,90
4,94
4,21
Utvrdite da li ove dvije grupe ispitanika imaju statistiki znaajno razliit prosjean uspjeh na
testu verbalnih sposobnosti.
6. Psihologa interesuje kako alkohol utie na tanost prepoznavanja saobraajnih znakova. Da bi
odgovorio na to pitanje selektirao je dvanaest ispitanika. Na poetku eksperimenta svaki
ispitanik imao je zadatak da prepozna (tj. da imenuje) 46 saobraajnih znakova. Nakon toga,
poto su u periodu od 45 minuta ispitanicu popili po 1,5 dl crvenog vina, psiholog im je
ponovo dao zadatak prepoznavanja 46 znakova. I u jednom i u drugom mjerenju registriran je
broj pogrenih odgovora ispitanika:
144
BROJ POGRENIH
PREPOZNAVANJA
SAOBRAAJNIH ZNAKOVA
ISP.
I mjerenje
II mjerenje
15
12
15
10
13
14
10
15
11
10
11
12
eksperimentalna
77
57
17,4
24
3,7
4,5
rijei kojih su se ispitanici mlae i starije dobi mogli dosjetiti. Dobivene su sljedee prosjene
vrijednosti i rasprenja:
GRUPA
mlai
stariji
10
10
19,3
12
7,1
14
Da li je hipoteza potvrena?
9. Dvije grupe uenika rjeavale su test znanja iz matematike. Dobivene su sljedee deskriptivne
statistike vrijednosti:
GRUPA
I
II
100
100
100
110
20
40
lijeva ruka
8
5
11
9
7
8
10
7
12
6
11
9
Testirajte nul-hipotezu!
146
desna ruka
10
9
14
7
10
5
15
7
11
12
11
10
Analiza varijance (eng. analysis of variance) ili skraeno ANOVA, je postupak koji se koristi
za ispitivanje statistike znaajnosti razlika izmeu aritmetikih sredina vie grupa. Za razliku od ttesta, kojeg koristimo kada testiramo statistiku znaajnost razlike izmeu dvije aritmetike sredine,
ANOVA-om moemo testirati razlike izmeu bilo kojeg broja aritmetikih sredina.
Naziv postupka ne ukazuje da se ispituju razlike izmeu aritmetikih sredina. Meutim, neka
vas naziv postupka ne navodi na pogrean zakljuak.Zaista, analizom varijance varijabilitet rezultata
se razlae na odreene dijelove jer se totalni varijabilitet zavisne varijable razlae na manje dijelove,
i to na dio varijance koji se pripisuje nezavisnoj varijabli i dio koji predstavlja ostatak, tj. rezidual, ili
varijancu pogreke. No, premda se analizira varijabilitet, ipak nas procedura vodi ka zakljuku o
razlikama izmeu aritmetikih sredina. Razlog zbog kojeg se koristi naziv analiza varijance, a ne
multigrupna analiza aritmetikih sredina, je taj da se ovim postupkom zaista uporeuju aritmetike
sredine, ali analiziranjem i uporeivanjem varijabiliteta, tj. varijanci.
Razumno pitanje je zato ne koristiti t-test za svaki par AS? Nekoliko je razloga zbog kojih se
ne koriste t-testovi. Najprije, koritenje veeg broja t-testova nije ekonomino. Sa poveanjem broja
grupa znaajno se poveava posao! Ukoliko imamo tri aritmetike sredine broj parova za koje treba
primjeniti t-test je 3, za etiri aritmetike sredine 6, a za npr. est potrebno je primjeniti 15 t-testova.
Nadalje, pitamo se da li su razlike izmeu vie AS statistiki znaajne, a ne da li je razlika izmeu
dvije AS statistiki znaajna. Najvaniji razlog je da se s poveanjem broja t-testova, poveava i
vjerovarnoa javljanja pogreke tipa I. Na kraju, u sluajevima kada imamo dvije ili vie nezavisnih
varijabli istovremeno, elimo znati ne samo o efektima pojedine varijable ve i o efektu interakcije
dvije ili vie varijabli.
Najjednostavniji primjer analize varijance je jednostavna ili jednosmjerna (one-way) analiza
varijance, kod koje imamo jednu nezavisnu varijablu, tj. faktor i jednu zavisnu varijablu. Faktor je
kategorijalna varijabla, a vrijednosti varijable nazivaju se nivoi. Ukoliko imamo dva ili tri faktora,
govorimo o dvo- ili tro-smjernoj analizi varijance. Ako su isti ispitanici ukljueni u sve nivoe
nezavisne varijable, koristimo analizu varijance za zavisne uzorke (RM ANOVA, od engl.
repeated measures ANOVA). Analiza varijance sa jednom zavisnom varijablom naziva se
univarijatna, a s dvije ili vie zavisnih varijabli, multivarijatna tj. MANOVA-a.
147
10
17
20
14
19
19
12
18
23
13
20
26
11
16
22
Grupa C
MC=22
1
X=20
2
1
Grupa B
Mtot=17,3
3
3
1
Grupa A
Unutar grupe
Izmeu grupa
X Mtot
X Mj
Mj Mtot
Za svaki rezultat mogu se izraunati navedena odstupanja. Kada kvadriramo ova odstupanja
dobit emo sume kvadrata. Tako imamo:
1. Sumu kvadrata totala (SStot)
2. Sumu kvadrata unutar grupa (SSwg), i
3. Sumu kvadrata izmeu grupa (SSbg).
Na osnovu sume kvadrata izraunat emo varijance:
2
SS ( x M )
s v MS
df
N 1
2
149
MS bg
MS wg
Kao to smo koristili t-test u cilju donoenja odluke o prihvatanju ili odbacivanju nulte
hipoteze, kod ANOVA-e koristimo F-test. Postoji porodica F-distribucija, zavisno od vrijednosti
stupnjeva slobode brojnika i nazivnika. Obzirom da je F-omjer omjer varijanci, njegova vrijednost
ne moe biti manja od nula. F-distribucija je pozitivno asimetrina; samo u sluaju ekstremno
velikih uzoraka, oblik F-distribucije pribliava se normalnoj (tanije kada dfbg i dfwg tee ka
beskonanoj vrijednosti).
Kritinu vrijednost F-omjera oitavamo iz tablica na osnovu stupnjeva slobode brojnika i
nazivnika. Ako je izraunati F vei od kritine vrijednosti F (uz odreene stupnjeva slobode), onda
je varijabilitet izmeu grupa statistiki znaajno vei od varijabiliteta unutar grupa, tj. utvrena je
statistiki znaajna razlika izmeu aritmetikih sredina.
150
151
Totalni varijabilitet
SStot
Izmeu ispitanika
Unutar ispitanika
SSbs
SSws
Izmeu tretmana
Rezidual
SStr
SSrez
152
Totalni varijabilitet
SStot
Izmeu grupa
Unutar grupa
SSbg
SSwg
Grupa A
Grupa B
Interakcija A x B
SSA
SSB
SSAxB
153
PRIMJER 10.1
Rimovanje
11
12
10
13
11
19
16
14
11
10
14
10
11
11
23
11
13
12
14
13
10
15
10
19
11
11
11
11
70
69
110
134
120
503
7,00
6,90
11,00
13,40
12,00
10,06
1,83
2,13
2,49
4,50
3,74
4,01
Varijanca
3,33
4,54
6,22
20,27
14,00
16,06
Total (Tj)
pridjeva
Imaginacija
Namjerno
Prebrojavanje
uenje
Total
Da li postoji statistiki znaajna razlika izmeu aritmetikih sredina pet grupa? Ako postoji,
koja grupa je najbolje rjeavala zadatak upamivanja? Koji nain procesiranja je najefikasniji?
Najprije emo grafiki prikazati aritmetike sredine. Najviu vrijednost AS postigli su ispitanici koji
su tokom nenamjernog uenja koristili imaginaciju (M=13,5), zatim ispitanici koji su dobili
eksplicitnu instrukciju da ue material (M=12) i ispitanici koji su odreivali pridjeve (M=11).
154
16
13,4
14
12
12
11
10
8
6,9
prebrojavanje
rimovanje
6
4
2
0
pridjevi
imaginacija
namjerno
ucenje
GT:
grand total
155
nj:
dfwg = 50 5 = 45
dfwg = 45
dftot = 4 + 45 = 49
dftot = 49
Izraunati F:
F = MSbg / MSwg
F = 87,88 / 9,67 = 9,08
Iz tablice L oitati graninu F vrijednost za odreene stupnjeve slobode. Ftablica se ita
tako da se stupnjevi slobode brojnika itaju na gornjem rubu tablice, a stupnjevi slobode
nazivnika na njenom lijevom rubu.
F0,05 (4,45) = 2,58; F0,01 (4,45) = 3,78
156
Izvor varijabiliteta
Suma kvadrata
Stupnjevi
Varijanca
(SS)
slobode (df)
(MS)
izmeu grupa
351,52
87,88
unutar grupa
435,30
45
9,67
Total
786,82
49
9,08
Za utvrivanje parova AS za koje postoji statistiki znaajna razlika upotrijebit emo Scheffeov
test.
F = (Ma Mb)2 / [MSwg (na + nb) / nanb]
F = (M1 M2)2 / [MSwg (n1 + n2) / n1n2]
157
Razlike izmeu AS
M1 - M2
0,005
> 0,05
M1 - M3
8,27
> 0,05
M1 - M4
21,18
< 0,01
M1 - M5
12,93
< 0,05
M2 - M3
8,69
>0,05
M2 - M4
21,85
<0,01
M2 - M5
13,45
>0,05
M3 - M4
2,98
>0,05
M3 - M5
0,52
>0,05
M4 - M5
1,01
>0,05
158
PRIMJER 10.2
Pretpostavimo da je edukacijski psiholog elio ispitati koja je metoda poduavanja fizike
najefikasnija, metoda A, B ili C. Formirane su tri grupe ispitanika koje su poduavane trima
metodama, nakon ega je utvren nivo znanja primjenom Testa znanja iz fizike. Rezultati su
prikazani u tabeli ispod:
12
17
20
14
24
19
12
18
23
13
20
26
11
24
22
17
18
17
19
23
19
18
20
18
20
20
20
16
16
16
Ti
152
200
200
15,2
20
20
3,2
2,9
3,0
159
1.
GT = (X)/ N
GT = 10156,80
2.
SumX = 10558
3.
SStot = X - GT
SStot = 401,20
4.
SSbg = T2j / n GT
SSbg = 153,60
5.
SSwg = 247,6
SStot = 401,20
7.
8.
dfbg = 2
df bg = (k-1)
df wg = (N-k)
dfwg = 27
dftot = 29
MSbg = 76,80
MSwg = 9,17
F = MSbg / MSwg
F = 8,375
p = 0,001
F0,05 (2,27)
9.
Tabela ANOVA
Izvor varijabiliteta
Suma kvadrata
(SS)
Stepeni slobode
(df)
Varijanca
(MS)
izmeu grupa
153,60
76,80
8,375
0,001
unutar grupa
247,60
27
9,17
Total
401,20
29
160
PRIMJER 10.3
U zadatku 12 iz Poglavlja 3 (Mjere centralne tendencije) bilo je rijei o anketi koju je
nastavno vijee O Sigmund Freud uputilo roditeljima uenika estih razreda. Jedno od anketnih
pitanja odnosilo se i na novana primanja majki uenika (anketirano je ukupno 98 porodica). Na
temelju ovih podataka nastavno vijee eli dobiti informaciju da li se visina novanih primanja
majki statistiki znaajno razlikuje obzirom na njihovu strunu spremu. U tu svrhu, na temelju
podataka o strunoj spremi prikupljenih anketnim upitnikom, majke uenika podijeljenje su u etiri
kategorije: 1 nia struna sprema (NSS), 2 srednja struna sprema (SSS), 3 via struna sprema
(VS) i 4 visoka struna sprema (VSS). Obzirom da u dva anketna upitnika nije bila navedena
struna sprema ispitanica, podaci za ove dvije majke su iskljueni iz daljnje analize, ime je broj
ispitanika u konanom uzorku iznosio 96. Podaci organizirani na ovaj nain prezentirani su u tabeli
ispod.
161
VS
VSS
450
750
900
1.150
450
750
900
1.150
450
750
900
1.150
500
800
950
1.200
500
800
950
1.200
500
850
950
1.200
500
850
950
1.200
550
850
950
1.200
600
850
950
1.250
600
850
950
1.250
600
850
1.000
1.250
650
850
1.000
1.250
650
850
1.000
1.250
650
850
1.000
1.250
650
900
1.050
1.250
700
900
1.050
1.350
700
900
1.050
1.350
700
900
1.050
1.350
700
900
1.050
1.400
700
900
1.100
1.400
700
900
1.100
1.400
750
900
1.100
7.750
750
900
1.150
8.000
750
900
1.150
10.600
24
24
24
24
614,58
854,17
1.008,33
2.200,00
102,66
50,90
76,14
2.585,20
14.750,00
20.500,00
24.200,00
52.800,00
217.562.500,00
420.250.000,00
585.640.000,00
2.787.840.000,00
9.307.500,00
17.570.000,00
24.535.000,00
269.875.000,00
NSS
X
(X)
X2
1.
GT = (SX)/ N
2.
SumX
3.
SStot = SX - GT
4.
SSbg = ST2j / n GT
5.
GT = 131.250.651,04
SumX = 321.287.500,00
SStot = 190.036.848,96
SSbg = 35.886.536,46
SSwg = 154.150.312,50
SStot = 190.036.848,96
7.
8.
dfbg = 3
dfbg = (k - 1)
dfwg = (N - k)
dfwg = 92
dftot = 95
MSbg =11.962.178,82
MSwg = 1.675.546,88
F = MSbg / MSwg
F = 7,14
p = 0,00
2,72
F0,05 (3,92)
9.
Tabela ANOVA
Izvor varijabiliteta
Stepeni
slobode
(df)
Varijanca
(MS)
izmeu grupa
35.886.536,46
11.962.178,82
7,14
0,00
unutar grupa
154.150.312,50
92
1.675.546,88
Total
190.036.848,96
95
Analiza varijance pokazuje da meu grupama (definiranim na temelju strune spreme) postoji
statistiki znaajna razlika u visini mjesenih primanja (to znai da nul-hipotezu treba odbaciti).
Meutim, naknadnom provjerom poetne distribucije rezultata, nastavnik matematike (koji je
provodio analizu) uvidio je da postoji osnova za sumnju da etiri grupne distribucije nisu normalno
distribuirane (ime ne bi bio ispunjen jedan od osnovnih uvjeta za provoenje analize varijance
163
normalnost distribucija). Osim toga, varijabilitet rezultata grupa znaajno se razlikuje (najnia
s=50,9, najvia s=2.585,20). Kako bi provjerio svoju pretpostavku, nastavnik je za svaku grupu
izraunao veliinu odstupanja distribucije mjesenih primanja od normalne distribucije (drugim
rijeima, izraunao je skjunis za svaku grupu). Dobio je sljedee rezultate:
Struna sprema
NSS
SSS
VS
VSS
Skjunis
-,364
-,988
,339
2,600
,472
,472
,472
,472
Kako se iz tabele vidi, sve distribucije vie ili manje odstupaju od normalne (distribucije za
NSS i SSS su negativno asimetrine, a distribucije za VS i VSS pozitivno asimetrine). Meutim,
samo za VSS distribucija mjesenih primanja znaajno odstupa od normalne distribucije. To je
mogue zakljuiti na osnovu toga to je skjunis za ovu distribuciju vei od svoje standardne
pogreke za vie od tri puta.
Razlog asimetrinosti distribucije za grupu VSS jesu tri ekstremna rezultata, kako je to
ilustrirano u dolje priloenom box-plotu. Ovi rezultati (kako se vidi na grafikonu) pripadaju
ispitanicama pod rednim brojem 75, 76 i 77 u bazi podataka, odnosno to su rezultati od 7.750, 8.000
i 10.600 KM i svojom veliinom distribuciju pomjeraju u desnu stranu.
da se ovi podaci nigdje nee povezati sa njihovim linim informacijama, sve su ispitanice potvrdile
da su to zaista njihova tana primanja. Meutim, kako su ovakvi sluajevi zaista ekstremni u
populaciji, nastavnik je jo uvijek elio biti siguran da su utvrene razlike meu grupama znaajne i
bez ovako rijetkih vrijednosti. Kako bi to uinio, nastavnik je odluio iskljuiti ova tri ekstremna
rezultata iz analize varijance. Na taj nain grupa VSS bi imala 21 ispitanicu, ime veliina grupa
ukljuenih u analizu ne bi bila jednaka (to moe naruiti pretpostavku o homogenosti varijanci u
grupama). Zbog toga je nastavnik odluio iz svake od tri preostale grupe po sluaju iskljuiti po tri
ispitanice. Konano, dobio je sljedee distribucije rezultata:
Struna sprema majke
SSS
VS
VSS
450
750
900
1150
450
750
900
1150
500
750
900
1150
500
800
950
1200
500
800
950
1200
500
850
950
1200
550
850
950
1200
600
850
950
1200
600
850
1000
1250
600
850
1000
1250
650
850
1000
1250
650
850
1000
1250
650
850
1050
1250
650
900
1050
1250
700
900
1050
1250
700
900
1050
1350
700
900
1050
1350
700
900
1100
1350
750
900
1100
1400
750
900
1150
1400
750
900
1150
1400
21
21
21
21
614,29
850,00
1.009,52
1.259,52
100,18
52,44
76,84
83,09
12.900,00
17.850,00
21.200,00
26.450,00
166.410.000,00
318.622.500,00
449.440.000,00
699.602.500,00
8.125.000,00
15.227.500,00
21.520.000,00
33.452.500,00
NSS
X
(X)2
X2
165
SSS
VS
VSS
Skjunis
-,270
-,862
,287
,533
,501
,501
,501
,501
GT = (SX)/ N
GT = 73173333,33
2.
SumX
SumX = 78325000
3.
SStot = SX - GT
SStot = 5151666,667
4.
SSbg = S T2j / n GT
SSbg = 4639761,905
5.
SSwg = 511904,7619
SStot = 5151666,667
7.
8.
dfbg = (k 1)
dfbg = 3
dfwg = (N k)
dfwg = 80
dftot = 83
MSbg = 1546587,302
MSwg = 6398,809524
F = MSbg / MSwg
F = 241,70
p = 0,0000
2,72
166
9.
Tabela ANOVA
Izvor varijabiliteta
Stupnjevi
Varijanca
(MS)
izmeu grupa
4.639.761,90
1.546.587,30
241,70
0,00
unutar grupa
511.904,76
80
6.398,81
Total
5.151.666,67
slobode
(df)
Kao to vidimo, dobiveni F omjer je ponovo statistiki znaajan; meutim u ovoj analizi je
mnogo vei od onog dobivenog u prvom postupku (7,14 prema 241,70).
Nakon zakljuka da se grupe razliitih nivoa obrazovanja statistiki znaajno razlikuju prema
visini mjesenih primanja, nastavniku matematike ostalo je da utvrdi koje tano grupe se meusobno
razlikuju (odnosno u kojim parovima aritmetikih sredina se pojavljuje statistiki znaajna razlika).
Da bi to utvrdio, nastavnik je proveo post-hoc analizu razlika meu aritmetikim sredinama, sluei
se Scheffe-ovim postupkom:
F = (Ma Mb)2 / [MSwg (na + nb) / nanb]
F0,05 (3,80) 2,72
Fgr (k 1) = 2,72 x 3 = 8,16
Dobiveni su sljedei rezultati:
Razlike izmeu AS
M1 - M2
91,17
<0,05
M1 - M3
256,33
<0,05
M1 - M4
683,17
<0,05
M2 - M3
41,76
<0,05
M2 - M4
275,20
<0,05
M3 - M4
102,56
<0,05
Kako se sve aritmetike sredine statistiki znaajno razlikuju jedna od druge, moemo
zakljuiti da struna sprema (na svim nivoima) utie na mjesena primanja ispitanica.
167
PRIMJER 10.4
Jedna grupa ispitanika (N=6) uestvovala je u istraivanju zapamivanja rijei razliitog
emocionalnog znaenja (neutralne, pozitivne i negativne rijei). U tabeli ispod prikazan je broj
zapamenih rijei s obzirom na njihov emocionalni ton.
Ispitanik
Neutralne rijei
Pozitivne rijei
Negativne rijei
Ts
12
16
15
43
10
11
13
34
14
14
18
46
11
28
12
13
15
40
16
15
18
49
Tt
72
78
90
Izvor varijabiliteta
Izmeu ispitanika
Suma kvadrata
(SS)
Stupnjevi
Varijanca
slobode (df)
(MS)
102
Izmeu tretmana
28
14
Rezidual
10
10
Total
140
17
14
<0,05
Unutar ispitanika
169
PRIMJER 10.5
Tri grupe ispitanika mukog i enskog spola uestvovali su u eksperimentalnom ispitivanju
efekata razliitih doza lijeka na simptome depresivnosti. U tabeli ispod prikazani su rezultati koje su
ispitanici postigli na skali depresivnosti nakon tretmana odgovarajuom dozom lijeka (vei rezultat
znai izraenije simptome depresivnosti).
ene
mukarci
TBj
Placebo
38
33
23
35
32
26
33
26
21
T11 = 106
T12 = 91
T13 = 70
33
34
34
31
36
31
28
34
32
T21 = 92
T22 = 104
T23 = 97
293
198
195
167
560
TAi
267
Faktorijalnom analizom varijance provjeriti emo glavne efekte i efekat interakcije Spol x
Doza.
Izraunavanje pomonih vrijednosti (X2 i GT )
X2 = 382 + 352 + 332 + 332 +....+ 332 + ... + 322 = 17776
(X)2 / N = (38 + 35 + 33 + 33 + ....+ 32)2 / 18 = 5602 / 18 = 17422,22
171
Granine F-vrijednosti:
A: F0,05 (1/12) =4,75
B: F0,05 (2/12) = 3,89
A x B: F0,05 (2/12) = 3,89
Tabela analize varijance
Izvor varijabiliteta
Suma kvadrata
Stepeni
Varijanca
(SS)
slobode (df)
(MS)
Izmeu grupa
279,78
A (spol)
37,56
B (tretman)
97,45
AxB
Unutar grupa
Total
37,56
6,09
p<0,05
48,72
7,90
p<0,05
144,77
72,38
11,73
p<0,05
74
12
6,17
353,78
17
Glavni efekti
Ako posmatramo razliku izmeu mukaraca i ena, bez obzira na tretman, govorimo o
glavnom efektu varijable Spol.
Mm = 32,56, M = 29,67
F = 6,09; p < 0,05
Takoer, ako posmatramo razliku izmeu tretmana, bez obzira na spol, govorimo o glavnom
efektu varijable Tretman.
Mp = 33, Msd = 32,5, Mvd = 27,83
F = 7,90; p < 0,05
172
Interakcija
Kako bi se razumjela interakcija, korisno je odrediti aritmetike sredine za svaku eliju.
Placebo
Srednja doza
lijeka
MA
ene
35,33
30,33
23,33
29,67
mukarci
30,67
34,67
32,33
32,56
33
32,5
27,83
MG = 31,11
MB
Nakon odreivanja AS, potrebno je napraviti grafiki prikaz i interpretirati interakciju. Zavisnu
varijablu (Depresija) nanosimo na Y osu, jednu od nezavisnih varijabli na X osu (Tretman), a
posebnim linijama oznaavamo dva nivoa druge nezavisne varijable (Spol).
173
ZADACI
Testirajte znaajnost razlika izmeu aritmetikih sredina.
1.
90
100
86
92
79
91
87
114
120
110
89
115
115
93
79
2.
3.
10
14
10
10
13
12
11
17
13
17
22
11
18
17
17
17
19
11
19
14
19
15
20
18
20
16
17
24
10
12
10
14
13
14
14
10
12
10
12
12
14
13
11
13
11
11
13
11
174
4.
df
MS
20
20
300
700
22
a. Na osnovu rezultata prikazanih u tabeli, odredite vrijednosti koje nedostaju (SSwg, dfbg i
MSbg) i upiite ih u tabelu u odgovarajua polja.
b. Koliko je ispitanika uestvovalo u istraivanju?
c. ta moemo zakljuiti na osnovu dobivene F-vrijednosti?
d. Da li se aritmetike sredine statistiki znaajno razlikuju?
DA
NE
e. ta biste uradili nakon to odgovorite na pitanje da li se aritmetike sredine statistiki
znaajno razlikuju?
5.
Suma
kvadrata
(SS)
izmeu grupa
Stepeni
slobode (df)
Varijanca
(MS)
unutar grupa
180,80
Total
276,95
19
175
6.
Tri grupe ispitanika mukog i enskog spola uestvovale su u tri razliita eksperimentalna
uvjeta zapamivanja besmislenih rijei. Rezultati za svaku situaciju prikazani su u donjoj tabeli
kao i broj upamenih rijei za svakog ispitanika.
SPOL
II
III
10
11
19
11
13
17
14
15
18
13
10
15
18
14
14
11
10
20
11
14
16
14
15
18
14
10
15
17
15
14
Ispitati statistiku znaajnost efekata faktora SPOL, GRUPA te interakcije SPOL X GRUPA.
7.
U tabeli ispod navedite vrijednosti koje nedostaju te grafiki prikaite glavne efekte i efekat
interakcije varijabli A i B (nije potrebno raunski provoditi analizu varijance) (na graficima na
odgovarajui nain oznaite X ose te, ukoliko je potrebno formirajte legendu).
B1
B2
B3
A1
14
A2
A3
12
MB
176
MA
8.
Tri grupe od po 9 ispitanika su uili gradivo razliitim metodama (metode A, B i C). Uspjenost
uenja izmjerena je testom znanja. Vrijednosti u bodovima navedene su za svakog ispitanika u
svakoj grupi u tabeli ispod.
GRUPA A
GRUPA B
GRUPA C
49
47
32
31
25
20
28
32
30
35
35
18
38
33
22
50
41
37
55
44
34
30
34
32
42
40
35
Suma
kvadrata
(SS)
Stepeni
slobode
(df)
Varijanca
(MS)
0,000
1,000
10
Izvor varijabiliteta
11
izmeu grupa
0,00
0,00
12
unutar grupa
8,40
12
0,70
8,4
14
11
Total
10
177
10. U sljedeoj tabeli prikazani su rezultati analize varijance nekog hipotetikog eksperimenta u
kojem su ispitanici rjeavali matematike zadatke na etiri nivoa teine i bili kanjeni za
pogrena rjeenja sa pet razliitih tipova kazne. Neke vrijednosti u tabeli su izbrisane, ali sve to
je izbrisano moe se izraunati na osnovu datih rezultata. Kompletirajte tabelu tako to ete
upisati odgovarajue vrijednosti!
Izvor variranja
SS
df
MS
Izmeu grupa
Teina zadatka (A)
100
150
AXB
Unutar grupa
Total
90
1190
178
Korelacija je statistika mjera povezanosti izmeu dvije ili vie varijabli. Korelacijom
opisujemo odnos izmeu dvije ili vie varijable: kakvog je oblika (npr.: linearan, kvadratian,
logaritamski, obrnuto U) i koliko iznosi. Npr., konzumiranje cigareta povezano je sa razliitim
oboljenjima; sa poveanjem konzumiranja cigareta poveava se uestalost razliitih oboljenja.
Sposobnost odgaanja zadovoljenja odreenih potreba u ranom djetinjstvu povezano je sa
socijalnom kompetencijom u odrasloj dobi ili s poveanjem sposobnosti odgaanja zadovoljenja
potreba u ranoj dobi, poveava se socijalna kompetencija u odrasloj dobi. U medicinskim
istraivanjima utvrena je povezanost izmeu tjelesne visine i uestalosti sranog udara kod ena:
to je visina vea, uestalost sranog udara je manja. U svakodnevnom ivotu esto koristimo
koncept povezanosti. Npr., ako na parkingu ispred trnog centra vidite veliki broj parkiranih
automobila, oekujete da e u centru biti guva; ako je na parkingu mali broj automobila, ne
oekujete guvu. Na osnovu ovih oekivanja (predvianja) donosite odgovarajuu odluku.
Korelacija moe biti pozitivna (porastu jedne odgovara porast druge varijable), negativna
(porastu jedne odgovara opadanje druge varijable), maksimalna, perfektna (vee slaganje ne moe
postojati) i nulta (izmeu dvije varijable ne postoji povezanost).
Ako su dvije varijable u korelaciji, to znai da na osnovu jedne varijable moemo, manje ili
vie precizno, predvidjeti rezultate druge varijable. Konceptu korelacije, blizak je koncept regresije
(tanije, regresijske analize). Regresijskom analizom predviamo vrijednosti jedne varijable, koju
nazivamo kriterijska, na osnovu informacija koje imamo o drugoj varijabli, koju nazivamo
prediktorska varijabla.
U tekstu koji slijedi najprije emo opisati koncept korelacije, a zatim koncept regresije.
Korelacija
U opisivanju povezanosti koristimo grafike i numerike metode.
Grafika metoda podrazumijeva grafiki prikaz povezanosti izmedu dvije varijable preko
skater dijagrama (eng. scatter diagram). Vrijednosti jedne varijable nanose se na X osu, a
druge na Y osu. Svaki ispitanik se prikazuje kao taka u koordinatnom sistemu [ureeni par, (x, y)].
Prediktorska varijabla nanosi se na apscisu, a kriterijska na ordinatu. Skater dijagram omoguava da:
odredimo smjer povezanosti; procjenimo da li je povezanost visoka, umjerena ili niska; utvrdimo
kakvog je oblika povezanost (linearna, inverzna U, ili neka druga); detektiramo ekstremne rezultate.
U skater dijagram unosi se pravac kojeg nazivamo pravac regresija Y na X. Predstavlja
najbolju predikciju Yi za datu vrijednost Xi. Stupanj u kojem se take okupljaju oko pravca
odraava veliinu povezanosti tj. korelacije izmeu X i Y. Ukoliko se sve take nalaze na pravcu
regresije, radi se o perfektnoj povezanosti, tj. maksimalno moguoj povezanosti.
179
y
Y
10
11
12
12
15
13
11
9
7
5
3
1
1
11
13
15
Skater dijagram u ovom sluaju opisuje pozitivnu povezanost izmeu dvije varijable.
Povezanost nije perfektna (take ne lee tano na pravcu regresije). S obzirom da su take blizu
pravca, povezanost je visoka.
U skater-dijagramu ispod, opisani su sluajevi kada take nisu toliko blizu pravca regresije.
Povezanost nije toliko visoka.
15
15
13
13
11
11
1
1
11
13
15
180
11
13
15
2. Uenici koji su inteligentniji, postizat e nii kolski uspjeh (nee se dovoljno truditi jer gradivo
smatraju jednostavnim, moda i dosadnim). Povezanost je negativna. Ispitanici koji na jednoj
varijabli postiu vie rezultate, na drugoj varijabli postiu nie rezultate, i obratno, oni koji
postiu nie rezultate na jednoj varijabli, postiu vie rezultate na drugoj varijabli.
ispitanik
12
11
11
10
12
15
13
3
1
1
11
13
15
Skater dijagram opisuje negativnu povezanost izmeu dvije varijable. Kao i u prethodnom
sluaju, povezanost nije perfektna (take ne lee tano na pravcu regresije), ali je visoka.
3. Uenici koji su visoko inteligentni ili manje inteligentni, postizat e nii kolski uspjeh u
poreenju sa prosjeno inteligentnim uenicima, koji e postizati visok kolski uspjeh.
Povezanost izmeu dvije varijable je nelinearna (zakrivljena). Ispitanici koji na jednoj varijabli
postiu vie i nie rezultate, postiu nie rezultate na drugoj varijabli, za razliku od ispitanika
koji na prvoj varijabli postiu prosjene vrijednosti, a na drugoj visoke.
ispitanik
10
12
15
13
11
5
3
1
1
11
13
15
Povezanost izmeu dvije varijable je nelinearna (zakrivljena). Pravac ne opisuje najbolje odnos
izmeu ove dvije varijable!
181
12
11
10
12
10
15
13
3
1
1
11
13
15
Povezanost izmeu dvije varijable ne postoji (nulta povezanost). Bilo gdje da ucrtamo pravac,
neemo adekvatno opisati nultu povezanost. Zapravo, ne postoji pravac koji najbolje opisuje ovakvu
povezanost.
Pearsonov koeficijent korelacije
Stupanj povezanosti izraava se koeficijentom korelacije, r. Vrijednost koeficijenta
korelacije kree se u granicama od -1 (potpuno negativna povezanost) do 1 (potpuno pozitivna
povezanost). Karl Pearson razradio je raunski postupak za izraunavanje stupnja povezanosti
(Pearsonov produkt-moment koeficijent korelacije).
Izraunavanje Pearsonovog koeficijenta korelacije preko kovarijanci
Kovarijanca je stepen u kojem dvije varijable zajedno variraju (ko-variraju). Kovarijanca
ukazuje na dijeljenu varijancu varijabli. Kovarijanca se izraunava preko izraza:
cov xy
(X Mx)(Y My)
N1
rxy
cov xy
sx sy
182
ISPITANICI
1
2
3
4
5
6
7
8
9
10
M=
s=
X
3
4
5
5
6
7
8
9
9
10
Y
10
11
12
12
13
14
15
16
16
17
6,6
2,4
13,6
2,4
X - Mx
-3,60
-2,60
-1,60
-1,60
-0,60
0,40
1,40
2,40
2,40
3,40
Y - My
-3,60
-2,60
-1,60
-1,60
-0,60
0,40
1,40
2,40
2,40
3,40
(X - Mx)(Y - My)
12,96
6,76
2,56
2,56
0,36
0,16
1,96
5,76
5,76
11,56
=50,4
covxy =5,6
sx x sy =5,6
rxy
cov xy
sx sy
5,6
1
5,6
rxy
zy
N1
183
ISPITANICI
1
2
3
4
5
6
7
8
9
10
M=
S=
X
3
4
5
5
6
7
8
9
9
10
Y
10
11
12
12
13
14
15
16
16
17
6,6
2,4
13,6
2,4
zx
-1,52
-1,10
-0,68
-0,68
-0,25
0,17
0,59
1,01
1,01
1,44
zy
-1,52
-1,10
-0,68
-0,68
-0,25
0,17
0,59
1,01
1,01
1,44
zx x z y
2,31
1,21
0,46
0,46
0,06
0,03
0,35
1,03
1,03
2,06
=9
rxy
zy
N1
9
1
9
rxy
N XY ( X)( Y)
X
2
184
ISPITANICI
1
2
3
4
5
6
7
8
9
10
=
X
3
4
5
5
6
7
8
9
9
10
Y
10
11
12
12
13
14
15
16
16
17
X
9
16
25
25
36
49
64
81
81
100
Y
100
121
144
144
169
196
225
256
256
289
XY
30
44
60
60
78
98
120
144
144
170
66
136
486
1900
948
( X)= 4356
( Y)= 18496
rxy
N XY ( X)( Y)
N X X N Y Y
2
10 948 66 136
1
(10 486 4356) (10 1900 18496)
Testiranje znaajnosti r
Vrijednost dobivenog koeficijenta korelacije mogla je biti rezultat sluaja. Stoga je potrebno
testirati statistiku znaajnost dobivenog koeficijenta korelacije. Matematiki model (uz nultu
hipotezu, tj. da ne postoji povezanost izmeu dvije varijable) ukljuuje distribuciju svih
koeficijenata korelacije od -1 do +1, sa aritmetikom sredinom M=0 (r=0).
Statistiku znaajnost koeficijenta korelacije moemo provesti na dva naina: preko tvrijednosti i uporeivanjem dobivenog r sa graninom vrijednou r oitanom iz tablice. t-vrijednost
se izraunava koritenjem izraza:
r N2
1 r2
185
Pravac regresije
Pravac ucrtan u skater-dijagram je pravac koji najbolje odgovara podacima i predstavlja
najbolju moguu predikciju vrijednosti Yi za datu vrijednost Xi. Uz pomo pravca regresije moemo
za bilo koju vrijednost X najtanije prognozirati vrijednost varijable Y.
Prognoziranu vrijednost Y oznaavamo sa Y. Pravac regresije definiran je nagibom i
odsjekom na osi Y (kada je X=0), tj. izrazom:
Y = a + bX
gdje je:
Y prognozirani rezultat
a odsjeak na osi Y kada je X=0
b nagib pravca
X vrijednost prediktora
Nagib pravca govori nam koliko se mijenja vrijednost Y varijable uz jedininu promjenu
vrijednosti X varijable. Odsjeak na Y osi je prognozirani rezultata kada je X=0.
Vrijednosti a i b odreuju se izrazima:
a = My bMx
cov xy
sx
ili
186
b rxy
sy
sx
ispitanik
10
11
12
12
(x-Mx)
(y-My)
(x-Mx)(y-My)
-4
-4
16
-1
-2
-2
-4
12
(x-Mx)(y-My) = 22
cov xy
(X Mx)(Y My) 22
5,5
N1
4
s x 10
2
cov xy
sx
5,5
0,55
10
a = 9 0,55 x 8 = 4,6
15
13
11
1
1
11
13
15
Pored pravca regresije Y na X, moemo odrediti i regresijski pravac X na Y. Ova dva pravca
sjeku se u taki Mx, My. Pravci su identini samo u sluaju perfektne korelacije (r=1).
Na istom primjeru pokazat emo i logiku odreivanja pravca regresije. U koordinatnom sistemu
moemo ucrtati beskonano mnogo pravaca, ali samo jedan pravac je optimalan, i to onaj koji je
tako definiran vrijednostima a i b da minimizira sumu kvadriranih YY odstupanja. Ova metoda
odreivanja pravca naziva se metoda najmanje sume kvadrata odstupanja. U skater-dijagramu
(slika 11.2) oznaena su YY odstupanja za svaku Y vrijednost.
188
15
13
11
11
9
YC- YC= 9 9
YB- YB=
YA- YA=
8 10,1
5 - 6,8
5
3
1
1
11
13
15
s
Y' r y X Mx My
sx
189
Iako bi se na osnovu pojma prognoza moglo zakljuiti da varijabla X ima efekat na varijablu
Y, to je pogreno. Prognoza rezultata Y ne znai da smo utvrdili efekat jedne varijable na drugu!
Povezanost izmeu dvije varijable ne znai da jedna varijabla objanjava drugu!
Pogreka prognoze
U samo jednom sluaju, prognoza rezultata Y je maksimalno precizna: kada je povezanost
izmeu dvije varijable maksimalna mogua. Kada je r=1, sve take u skater-dijagramu nalaze se na
pravcu regresije, to znai da su odstupanja YY jednaka nuli, tj. rezidual je 0. U svim drugim
sluajevima postoji odreena odstupanja izmeu utvrenog i prognoziranog rezultata.
Izraz (YY)2 nazivamo suma kvadrata reziduala i oznaavamo sa SSrez. Pogreka
prognoze je to vea to je suma kvadrata reziduala vea. SSrez predstavlja varijabilitet koji ostaje
kada na osnovu X prognoziramo Y (kaemo da se radi o varijabilitetu koji se ne moe objasniti
prognoziranjem Y na osnovu X).
U naem primjeru, odredit emo (YY)2.
ispitanik
y- y
(yy)2
6,8
-2
10
10,1
-2
11
7,9
12
12
11,2
1
2
(YY) =
18
sy, x
ssrez
ili
N2
sy, x
Y Y
N2
Kvadrirana vrijednost sy,x naziva se rezidualna varijanca ili varijanca pogreke. U naem
primjeru, standardna pogreka prognoze iznosi:
y, x
Y Y
N2
18
3
2,45
190
sy, x sy (1 r 2 )
N1
N2
sy, x sy (1 r 2 )
Standardna pogreka prognoze interpretira se kao standardna devijacija! Na osnovu standardne
pogreke prognoze odreujemo interval pouzdanosti prognoziranog rezultata:
Interval pouzdanosti = Y sy,x x t/2
Izraunat emo interval pouzdanosti prognoziranog rezultata na varijabli Y, ispitanika koji je na
varijabli X postigao rezultat x=15. Interval pouzdanosti iznosi (ve smo odredili da je prognozirani
rezultat Y=12,85):
IP=Y sy,x t/2 = 12,85 2,45 x 3,182 = 12,85 7,80
5,05 Y 20,65
(t/2 oitavamo iz tablice graninih vrijednosti t, za npr. 95% pouzdanost)
Dakle, 95% granice pouzdanosti su od 5,05 do 20,65.
Meutim, kada pravac regresije odreujemo na osnovu relativno malog broja podataka,
koristimo sljedei izraz:
Y s y,x t /2
1 (X Mx )2
1
N (N1)s x 2
Koeficijent determinacije
Iz dva izraza za odreivanje standardne pogreke prognoze slijedi:
sy, x sy 1 r 2 , s y,x
SSrez
SSrez SS y (1 r 2 )
N2
odnosno:
SSrez = SSY SSY r2,
to nas dovodi do izraza:
r2
SS y SSrez
SS y
SSy = (Y My)2
U gornjem izrazu SSy je totalna suma kvadrata rezultata Y (totalno variranje rezultata Y) i
sadrava totale:
1. sume kvadrata Y objanjen sa X - SSy(r2), i
2. sume kvadrata Y koji je nezavisan od X - SSrez.
U naem primjeru, totalna suma kvadrata rezultata kolskog uspjeha dijeli se na dio koji se
moe objasniti inteligencijom i dio (ostatak) koji objanjavaju druge varijable (ne znamo koje). SS rez
je suma kvadrata Y koja je nezavisna od X i predstavlja mjeru pogreke nakon to preko X
prognoziramo Y.
Nekoliko izvora varijabiliteta mogu se sumirati na sljedei nain:
1.
2.
3.
4.
192
Kako je ve reeno, jedan dio varijabiliteta kolskog uspjeha objanjen je inteligencijom (SS Y),
a jedan nije (SSrez). Bilo bi korisno da odredimo procenat ukupnog varijabiliteta kolskog uspjeha
koji se moe objasniti varijabilitetom inteligencije, tj. potrebna nam je mjera koja predstavlja odnos:
SS y
SS y
SS y SSrez
SS y
r2
SS y
SS y
193
PRIMJER 11.1
Na koji nain se mjenja potronja goriva s poveanjem brzine automobila? Ispod su prikazani
fiktivni podaci (koji oslikavaju realnu situaciju) koliine potroenog goriva na rastojanju od 100 km,
pri razliitim brzinama za automobil marke ASD.
Brzina (km/h)
10
20
30
40
50
60
70
80
Potronja (l)
20,0
15,7
10,0
8,6
7,3
6,0
7,5
7,9
Brzina (km/h)
90
100
110
120
130
140
150
160
Potronja (l)
8,2
9,1
9,8
10,0
11,0
12,5
12,9
13,3
Prikazat emo grafiki povezanost izmeu brzine automobile i koliine potroenog goriva, a
zatim opisati oblik povezanosti.
Slika 7
Potronja (l)
18
Skater dijagram prikazan je na slici 3.
16
Jasno se vidi da povezanost nije linearna.
14
Do vrijednosti brzine x=60 km/h potronja
12
goriva opada, ali pri brzinama veim od
10
ove, potronja goriva raste. Pri tome je
8
tempo opadanja potronje goriva vei od
tempa porasta potronje goriva. Obzirom da
6
povezanost nije linearna, nema smisla
4
govoriti o pozitivnoj ili negativnoj
2
povezanosti. Snagu povezanosti ne
0
0
20
40
60
80
100
120
140
160
180
moemo izraunati preko Pearsonovog
Brzina (km/h)
koeficijenta korelacije jer nije zadovoljen
uvjet linearne povezanosti izmeu varijabli.
Meutim, na osnovu oblika krivulje, mogli bi opravdano pretpostaviti da je povezanost snana
(postupci izraunavanja koeficijenata povezanosti u sluajevima kada nije zadovoljen uvjet
linearnosti, bit e objanjeni u sljedeem poglavlju).
PRIMJER 11. 2
Da li su verbalne sposobnosti povezane sa opom informiranou? U cilju ispitivanja ove
povezanosti grupa od 30 studenata psihologije rjeavala je test verbalnih sposobnosti (X) i test ope
informiranosti (Y). Rezultati su prikazani u tabeli ispod.
194
XMX
YMY
(XMX)( YMY)
38,5
18
-0,13
2,13
-0,284
39,5
13
0,87
-2,87
-2,4969
47,5
15
8,87
-0,87
-7,7169
50,5
17
11,87
1,13
13,4131
38
14
-0,63
-1,87
1,1781
48
22
9,37
6,13
57,4381
43
16
4,37
0,13
0,5681
37
19
-1,63
3,13
-5,1019
45,5
24
6,87
8,13
55,8531
10
35
15
-3,63
-0,87
3,1581
11
25
11
-13,63
-4,87
66,3781
12
41
12
2,37
-3,87
-9,1719
13
28,5
-10,13
-7,87
79,7231
14
41,5
13
2,87
-2,87
-8,2369
15
39,5
18
0,87
2,13
1,8531
16
40,5
19
1,87
3,13
5,8531
17
34
19
-4,63
3,13
-14,4919
18
43,5
13
4,87
-2,87
-13,9769
19
29
14
-9,63
-1,87
18,0081
20
27
-11,63
-10,87
126,4181
21
35,5
20
-3,13
4,13
-12,9269
22
40
16
1,37
0,13
0,1781
23
29
20
-9,63
4,13
-39,7719
24
39
19
0,37
3,13
1,1581
25
40
21
1,37
5,13
7,0281
26
40
14
1,37
-1,87
-2,5619
27
39,5
12
0,87
-3,87
-3,3669
28
31
-7,63
-7,87
60,0481
29
49
25
10,37
9,13
94,6781
30
44
16
5,37
0,13
0,6981
(XMX)( YMY)=
195
473,5259
cov xy
rxy
sx s y
16,33
16,33
0,528
6,63 4,66 30,90
r N2
1r
0,528
30 2
1 0,528
0,528
5,29
3,29
0,849
Granina vrijednost t za df=28 iznosi tgr= 2,048. Dakle, moemo zakljuiti da je izraunati
koeficijent korelacije statistiki znaajan na nivou p=0,05. tj:
r = 0,528, p < 0,05
2. Odrediti pravac regresije
Pravac regresije definiran je jednainom:
Y = a + bX
Za izraunavanje b i a koristit emo sljedee izraze:
a = My b Mx i b
cov xy
sx
16,33 16,33
0,37
6,632 43,96
196
cov xy
sx
Y 30
25
20
15
10
5
0
10
20
30
40
50
60
X
sy
Y ' r
sx
4,66
X Mx My 0,528
42 38,63 15,87 17,12
6
,
63
PRIMJER 11.3
Psihologa je interesovalo da li uenici sa viim spacijalnim sposobnostima (npr. sposobnost
mentalne rotacije objekata) prave manje pogreaka na testu matematikih sposobnosti? Grupa od 30
uenika rjeavala je test spacijalnih sposobnosti (X) i utvren je broj pogreaka na test matematikih
sposobnosti (Y). Rezultati su prikazani ispod.
ISPITANIK
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
X
29
34,5
30
35
30,5
37
31
37
37,5
39
19
27
40
22
22
Y
15
15
19
20
20
20,5
21
21
22
22
23
23
25
27
28
ISPITANIK
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
198
X
26
23
24,5
25,5
20
28
25
28
28,5
32,5
24,5
18
27
21
28
Y
29
29
29
30
30
31
32
33
33,5
37,5
39
40
40,5
41
41
matematike sposobnosti
spacijalne sposobnosti
45.0
40.0
40.0
35.0
35.0
30.0
30.0
25.0
25.0
20.0
20.0
15.0
15.0
skjunis
,287
,250
st.pog. skjunisa
,427
,427
KS-Z
,492
,737
p
,969
,649
199
50
40
30
20
10
0
0
10
20
30
40
50
rxy
N XY ( X)( Y)
2
X
2
200
ISPITANIK
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
X
29
34,5
30
35
30,5
37
31
37
37,5
39
19
27
40
22
22
26
23
24,5
25,5
20
28
25
28
28,5
32,5
24,5
18
27
21
28
Y
15
15
19
20
20
20,5
21
21
22
22
23
23
25
27
28
29
29
29
30
30
31
32
33
33,5
37,5
39
40
40,5
41
41
X
841
1190,25
900
1225
930,25
1369
961
1369
1406,25
1521
361
729
1600
484
484
676
529
600,25
650,25
400
784
625
784
812,25
1056,25
600,25
324
729
441
784
Y
225
225
361
400
400
420,25
441
441
484
484
529
529
625
729
784
841
841
841
900
900
961
1024
1089
1122,25
1406,25
1521
1600
1640,25
1681
1681
XY
435
517,5
570
700
610
758,5
651
777
825
858
437
621
1000
594
616
754
667
710,5
765
600
868
800
924
954,75
1218,75
955,5
720
1093,5
861
1148
850
837
25166
25126
23010
( X)= 722500
( Y)= 700569
rxy
N XY ( X)( Y)
2
X Y Y
2
rxy=-0,509
201
Statistiku znaajnost dobivenog Pearsonovog koeficijenta korelacije ispitat emo preko ttesta:
Uz df=28, za p=0,01 tgr=2,763. Prema tome utvreni koeficijent korelacije statistiki je
znaajan na nivou od 0,01.
a = My bMx
cov xy
cov xy
sx
- 24,31
0,651
37,33
sx
a. U sluaju kada je pogreka prognoze jednaka nuli, korelacija bi bila maksimalno mogua, tj.
r=1. Tada vrijedi:
s
7,82
Y' r y X Mx My 1
35 28,33 27,9 27,9 8,54
s
6,11
Y = 19,36 i Y = 36,44
b. Kod maksimalno mogue pogreke prognoze korelacija je jednaka nuli, tj. r=0. Tada vrijedi:
s
s
Y' r y X Mx My 0 y X Mx My My
sx
sx
Y = My = 27,9
204
PRIMJER 11.4
Pretpostavimo da je u prethodnom primjeru (10.3) ispitanik pod rednim brojem 27. na testu iz
matematike napravio samo jednu pogreku (y=1). Izraunajte koeficijent korelacije.
Koeficijent korelacije iznosi r=-0,191, to je znatno manje u odnosu na vrijednost izraunatu u
prethodnom primjeru (r=-0,509). Vidimo kako jedan podatak, koji znaajno odstupa od prosjeka,
znaajno mijenja vrijednost koeficijenta korelacije. Ekstremna vrijednost je podatak koji u
znaajnoj mjeri odstupa od drugih. Koeficijent korelacije osjetljiv je na ekstremne vrijednosti i stoga
njihova pojava moe znaajno izmjeniti realnu sliku povezanosti izmeu varijabli.
Na skater dijagramu (slika ispod) moemo uoiti u kojoj mjeri ovaj podatak odstupa od ostalih.
205
PRIMJER 11.5
Pretpostavimo da su na grupi uenika prvog razreda nekoliko srednjih kola prikupljeni podaci
o kolskom uspjehu na kraju polugodita i da je primjenjen test matematikih sposobnosti. Stupanj
povezanost izmeu matematikih sposobnosti i kolskog uspjeha utvren je preko Pearsonovog
koeficijenta korelacije koji je iznosio r=0,659.
Nadalje, pretpostavimo da su iz grupe podataka izdvojeni oni koji pripadaju uenicima
matematike gimnazije. Ponovo je izraunat Pearsonov koeficijent korelacije. Ovaj put iznosio je
r=0,388. Kako moemo objasniti razliku u dobivenim koeficijentima korelacije? Zato je u drugom
sluaju dobiven gotovo dva puta manji koeficijent korelacije?
Za odgovor na postavljena pitanja trebamo znati da su uenici matematike gimnazije
selekcionirana grupa. Naime, jedan od kriterija za pohaanje matematike gimnazije su razvijene
matematike sposobnosti. Tako je kriterij za upis u ovu kolu bio rezultat jednak ili vei medijani na
testu matematikih sposobnosti (pretpostavimo da u ovom hipotetskom primjeru iznosi C=28). Stoga
u grupi uenika iz matematike gimnazije uope nema uenika ispodprosjenih matematikih
sposobnosti. Prema tome, opseg rezultata na testu matematikih sposobnosti uenika matematike
gimnazije manji je od opsega rezultata svih uenika koji su uestvovali u istraivanju. Kao
posljedica restrikcije opsega rezultata dobivena je nia vrijednost koeficjenta korealcije na grupi
uenika iz matematike gimnazije.
Na slici 10.5 vidimo kako je povezanost izmeu dvije varijable vea za cjelokupnu grupu
podataka u odnosu na podatke uenika matematike gimnazije. Isprekidanom linijom oznaena je
donja granica rezultata na testu matematikih sposobnosti uenika matematike gimnazije (X=28).
Ako prekrijemo take koje se nalaze ispod X=28, vidjet emo da je grupiranje oko zamiljenog
pravca manje u odnosu na grupiranje takaka svih uenika.
Najee, restrikcija opsega uzrokuje smanjenje koeficijenta korelacije, ali je mogue i da
dovede do njegovog poveanja.
r=0,659
r=0,388
206
PRIMJER 11.6
Jedna od mjera za poveanje profita koju kompanija M planira poduzeti je poveati ulaganja u
reklamiranje svojih proizvoda. Kako bi ispitala isplativost ovog poslovnog poteza, prikupljeni su
podaci o ulaganju u reklame i ostvarenoj dobiti 20 kompanija koje se bave prodajom razliitih
proizvoda. Odreene su regresijske jednaine za proizvode A, B i C. Podaci su prikazani u tabeli
ispod.
Proizvod
Regresijska jednaina
Y = 56,9 + 2X
B
C
Y = 26,3 + 0,03X
Y = 154,8 + 10,7X
Na osnovu navedenog, moemo zakljuiti da se najveu dobit moe oekivati ako se ulae u
reklamiranje proizvoda C.
207
ZADACI
1. Ispod su data etiri skupa podataka (A, B, C i D).
A
x
2
5
3
7
6
B
y
3
6
4
7
8
x
9
5
3
7
6
C
y
3
2
4
7
9
x
4
5
3
7
2
D
y
3
5
4
3
7
x
1
3
5
7
9
y
2
4
6
4
2
a. Na osnovu podataka odredite, bez raunanja i crtanja skater dijagrama, smjer povezanosti
izmeu varijabli x i y.
b. Nacrtajte skater-dijagram i odredite kakvog smjera su povezanosti izmeu varijabli.
c. Izraunajte Pearsonov koeficijent korelacije za svaki skup podataka.
2. Ispod su prikazani skater-dijagrami za etiri skupa podataka (A, B, C i D).
10
10
0
0
10
10
10
10
0
0
10
10
B
y
3
6
4
8
7
x
15
5
8
10
6
C
y
10
0
3
5
1
208
x
2
3
4
5
6
y
6
5
4
3
2
B
y
1,55
-0,95
-0,2
0,3
-0,7
x
-1,25
-0,625
0
0,625
1,25
y
1,25
0,625
0
-0,625
-1,25
209
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
X
31
25
20
21
22
29
24
32
25
30
26
26
24
27
28
Y
4
2,8
2,3
2,6
2,6
4,1
2
4,1
2,6
3
2,1
2,3
2,7
3
3,8
16
17
18
19
20
21
22
23
24
25
26
27
28
29
X
33
28
29
23
29
30
18
30
31
17
32
27
32
33
Y
4
3,6
3,8
1,6
2,6
2,8
2
4,6
3,2
2,8
4
2,9
4
1,8
210
8. Na grupi od 20 uenika prikupljeni su podaci o broju sati provedenih u pripremi za test znanja iz
fizike (X) i rezultatu kojeg su postigli na testu (Y).
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
a.
b.
c.
d.
e.
f.
g.
X
5
14
10
9
4
7
12
15
4
9
8
11
5
6
10
11
16
13
15
12
Y
35
58
60
65
41
53
60
79
35
50
59
64
45
52
65
69
69
72
73
50
211
9. Nastavnik je ispitivao povezanost izmeu vremena rjeavanja testa (X) i broja tanih odgovora
koje uenik postigne na testu (Y). Dobiveni podaci prikazani su ispod.
1
2
3
4
5
6
7
8
9
10
11
12
X
30
45
60
36
39
54
56
46
37
51
62
47
Y
75
100
54
81
94
65
79
79
95
82
54
82
212
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
X
11
4
19
8
9
9
10
2
13
15
7
15
16
4
17
18
14
20
15
18
Y
8
4
9
10
6
11
7
4
9
6
7
9
5
6
8
11
12
12
9
7
1
2
3
4
5
6
7
8
9
10
11
12
x
1,3
2,4
0,8
2,1
1,8
0,9
1,8
2,8
1,1
1,3
0,7
1,7
213
y
0,7
2,1
1,5
2
1
0,9
1,5
2,1
1,8
0,9
1
1,8
27
13
36
13
30
27
15
24
22
10
20
27
29
11
10
32
14
11
25
12
37
214
79
2,5
81
82
89
92
3,5
94
95
95
95
10
1,5
110
11
110
12
2,5
115
160
75
175
65
176
67
177
75
180
72
182
74
183
79
186
85
189
80
10
193
86
215
15. Na poetku nastave iz statistike studenti su rjeavali test matematikih sposobnosti (X). Na kraju
nastave utvren je uspjeh iz statistike (Y).
x
50
90
23
85
52
95
40
90
33
87
21
77
18
74
31
79
38
80
10
45
92
16. Ispravne konice na automobilu vane su za sigurnu vonju. S vremenom snaga konica slabi.
Kako bi ispitali povezanost izmeu starosti automobila i snage konice provedeno je istraivanje
u kojem je automobilima razliite starosti (X) mjerena distanca zaustavljanja (y) pri brzini od
120 km/h. Starost automobila izraena je u mjesecima a distanca zaustavljanja u metrima.
Podaci su prikazani u tabeli ispod.
x
12
25,40
17
30,30
25
39,60
31
37,20
38
36,50
45
35,30
56
36,20
61
45,10
65
44,80
10
74
50,20
216
a.
b.
c.
d.
e.
17. Pretpostavimo da elimo ispitati povezanost izmeu tjelesne teine (X) i tjelesnog selfa (Y). U
istraivanju je uestvovalo deset mlaih adolescenata i deset starijih osoba. Tjelesna teina
izraena je u kilogramima. Tjelesni self izmeren je skalom tjelesnog selfa. Prikupljeni su podaci
od ispitanika mukog spola. Podaci su prikazani ispod.
Mlai adolescenti
Starije osobe
75
61
2,6
65
2,3
70
67
2,6
67
3,2
75
2,6
72
3,4
72
2,6
72
3,6
74
2,8
70
3,8
79
3,1
79
3,9
85
3,1
63
4,5
80
71
a. Izraunajte Pearsonov koeficijent korelacije za sve podatke (bez obzira na dob ispitanika)
b. Izraunajte Pearsonove koeficijente korelacije za mlae adolescente i starije osobe.
c. Uporedite izraunate koeficijente korelacije. ta moete zakljuiti?
217
18. Grupa od 14 ispitanika rjeavala je dva testa, iz geografije (X) i matematike (Y). U tabeli ispod
navedeni su rezultati (bodovi na testu) za svakog uenika u oba testa.
X
30
15
35
12
37
28
33
12
37
14
39
40
15
42
16
10
44
13
11
50
17
12
31
13
18
10
14
15
Mb =60
Sh = 10
sb =10
a. Kolika je pogreka prognoze ako na osnovu rezultata u testu hemije prognoziramo neki
rezultat u testu biologije?
b. Koliko treba iznositi koeficijent korelacije da se standardna pogreka prognoze smanji za
50%?
c. Koji je najvjerovatniji rezultat uenika u testu biologije koji u testu hemije postie rezultat
50?
218
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
x
40
20
10
15
18
35
27
16
4
33
35
15
5
10
13
y
10
3
1
2
4
6
9
8
5
7
8
4
2
5
6
219
12. Rjeenja
Varijabla
Tip varijable
Vrijednosti
Pacijent
KATEGORIJALNA/ NOMINALNA
Spol
KATEGORIJALNA/ NOMINALNA
M,
Dob
KATEGORIJALNA/ NOMINALNA
Dijagnoza
KATEGORIJALNA/ NOMINALNA
Vrsta terapije
KATEGORIJALNA/ NOMINALNA
Trajanje terapije
KVANTITATIVNA/ RACIO-OMJERNA
3, 4, 9, 10, 15
2.
a.
b.
c.
d.
e.
f.
g.
h.
i.
j.
KATEGORIJALNA/ NOMINALNA
KONTINUIRANA/ RACIO-OMJERNA
KATEGORIJALNA/ NOMINALNA
KONTINUIRANA/ RACIO
KONTINUIRANA/ RACIO
KONTINUIRANA/ RACIO
KATEGORIJALNA / NOMINALNA
KONTINUIRANA/ INTERVALNA
KONTINUIRANA/ RACIO
KATEGORIJALNA/ NOMINALNA
a.
b.
c.
Broj novoroenadi - RACIO; spol NOM.; poroajna teina RAC.; datum i vrijeme roenja RAC.
Duine (u mm) zadnjeg donjeg molara RACIO; broj pacijenata - RACIO.
Brok kontrolisanih vozila RACIO; vrsta prekraja NOM.; registarske tablice NOM.; brizna kretanja vozla RACIO; spol
vozaa NOM.
Visina djece racio; teina djece RACIO; stanje plua NOM.; stanje abdomena NOM.; stanje ekstremiteta NOM.;
stanje oiju NOM.; visina sedimentacije RACIO; broj eritrocita RACIO; broj leukocita RACIO; broj roditelja u pratnji
djeteta - RACIO.
Broj mjerenja RACIO; dimenzije obrisa kocke ucrtanih na kartonu - RACIO.
Broj listova na biljci RACIO; broj biljaka - RACIO.
Broj mjerenja krvnog pritiska RACIO; Visina krvnog pritiska RACIO.
Broj razreda; broj odjeljenja; broj uenika - RACIO.
Broj opaane djece RACIO; vremensko trajanje igre - RACIO.
Broj atletiara RACIO; Poredak atletiara na cilju RANG.
3.
d.
e.
f.
g.
h.
i.
j.
220
7.
a. INTERVALNA SKALA
a.1.
1 - NIJE POLOIO IPIT: Ren
2 POLOIO ISPIT: Ben, Den, Ken, Jen, Wen.
Rezultati izraeni na nominalnoj skali: 1, 2, 2, 2, 2, 2
a.2. Rezultati izraeni na rang skali:
1. Wen, 2. Ken, 3. Ben, 4. Jen, 5. Den, 6. Ren
b. RACIO SKALA
b.1.
1 NIJE ZAVRIO TRKU: Asaffa Powell
2 ZAVRIO TRKU: Carl Lewis, Tyson Gay, Donovan Bailey, Usain Bolt, Leroy Burrell, Maurice Green
Rezultati izraeni na nominalnoj skali: 1, 2, 2, 2, 2, 2, 2
2.
a. Distribucija frekvencija rezultata grupiranih u 8 razreda.
Razredi
67-76
77-86
87-96
97-106
107-116
117-126
127-136
137-146
total
f
7
5
6
4
5
2
0
1
30
b. 136,5 146,5
221
c. Stem-and-leaf prikaz
(2)
10
(4)
11
(4)
12
14
(6)
(5)
(6)
(2)
(1)
znai 8,2
e.
100,0%
100,0%
96,7%
96,7%
90,0%
90,0%
80,0%
73,3%
70,0%
60,0%
60,0%
50,0%
40,0%
40,0%
30,0%
23,3%
20,0%
10,0%
76-90
d.v. (2)
136,5
61-75
126,5
106,5
46-60
116,5
96,5
86,5
76,5
56,5
66,5
0,0%
0,0%
5.
25
broj golova
20
15
10
0
1-15
16-30
31-45
d.v. (1)
minuta susreta
6.
ene
mukarci
61
61
61
62
63
63
72
72
81
83
83
89
92
93
95
95
73
73
74
76
64
68
72
75
75
79
81
81
81
81
83
84
85
86
86
86
88
89
89
92
92
93
96
98
222
85
10.Histogram
11. Torta ili stupasti dijagram. Histogram.
12. Histogram ili stablo i list prikaz.
14.Stupasti dijagram.
15.Histogram ili stablo i list prikaz.
fx
cf
rcf%
0-4
2,2%
5-9
28
11,1%
10-14
12
10
120
15
33,3%
15-19
17
15
255
30
66,7%
20-24
22
10
220
40
88,9%
25-29
27
108
44
97,8%
30-34
32
32
45
100,0%
45
765
C=17
M=17
3.5.
100,0%
90,0%
80,0%
70,0%
60,0%
50,0%
40,0%
30,0%
20,0%
10,0%
0,0%
0
4,5
9,5
14,5
19,5
24,5
29,5
34,5
223
9. C=77; M=125,26
Distribucija rezultata je izrazito asimetrina. Stoga je medijana reprezentativnija mjera centralne tendencije.
10. C=12,4; M=14,07
U nizu podataka jedna vrijednost je ekstremna (55,8). Stoga je medijana reprezentativnija mjera centralne tendencije.
4. MJERE VARIJABILITETA
1. Q1=15; C=18; Q3=20; IQR=5; s=3,59
2. Q1=1; C=2; Q3=4; IQR=3; s=2,64
4. Q1=12,63; Q3=21,38; IQR=8,75; s=6,24
7. Q1=11,75; Q3=15,525; IQR=3,775; s=2,25
10. M1=8,95; s1= 9,41
M2= 7,32; s2=6,09
Vrijednost aritemtike sredine i standardne devijacije manja je nakon to je iskljuena ekstremna vrijednost.
11. Na osnovu kvartila i centralne vrijednosti ne moemo odrediti o kojem rezultatu se radi.
Koristei M i s, odredit emo da je u pitanju rezultat 16.
12. A-T1; B-T4;C-T2; D-T3.
13. Interkvarilni raspon:
Q1 = 32,33
Q3 = 39,34
IQR = 7,01
v = 89,68
s = 9,47
4.14.
Q1 = 749,75
Q3 = 1.149,80
IQR = 400,05
s = 1.387,535
v = 1.925.254
6. NORMALNA RASPODJELA
1.
68,26% sredinjih vrijednosti: M s = 135,08 1,83: 133,25 - 136,91
95,44% sredinjih vrijednosti: M 2s = 135,08 2*1,83: 131,42 - 138,74
99,73% sredinjih vrijednosti: M 3*s =135,08 3*1,83:129,59 - 140,57
224
3.
a.
b.
c.
d.
e.
z=0
z=1
z=2
z = -1
z = -3
a.
b.
c.
d.
e.
f.
X = 125
X = 73,4
X = 95
X = 107
X = 119
X = 59
4.
5.
M = 55,8
7.
a.
z = -3,29
% niih rez.: 0,06
b.
z = -4,00
% niih rez.: 0
z = -1,29
% niih rez.: 9,85
z = 0,86
% niih rez.: 80,51
z = 2,00
% niih rez.: 97,72
z = -2,71
% niih rez.: 0,34
c.
d.
e.
f.
11.
a.
b.
c.
d.
e.
f.
g.
h.
i.
j.
k.
z1 = -2,29
z2 = 0,89
z3 = 2,63
z4 = 3,76
z5 = -2,74
z6 = -1,32
1335; 252; 6; 0; 1346; 1224
1334; 1094; 252; 111
X = 202
X 236,20
X 216,82
a.
b.
c.
11 kandidata.
X 133
Kandidat A.
12.
225
8. TESTIRANJE HIPOTEZA
2. z(19)=1,79; p>0,05 (tgr=1,96)
3 z(24)=2; a) p<0,05; b) p>0,01
4. z(124)=6,74; p<0,01
7. t(39)=-1,90 t0,05=1,684; t0,01=2,423 p<0,05; p>0,01 (jednosmjerno testiranje)
10. ANOVA
1
Izvor varijabiliteta
Varijanca (MS)
izmeu grupa
41,73
20,87
0,911
unutar grupa
2659,60
12
221,63
Total
2701,33
14
Izvor varijabiliteta
Varijanca (MS)
izmeu grupa
101,60
50,80
0,041
unutar grupa
380,70
27
14,10
Total
482,30
29
0,094
3,603
3
4
Izvor varijabiliteta
Varijanca (MS)
izmeu grupa
96,15
32,05
0,071
unutar grupa
180,80
16
11,30
Total
276,95
19
226
2,836
2.
10
10
0
0
10
10
10
10
0
0
10
10
c.
x
c. r=0,835
d. y = 2,7445x + 30,804
227
e. y=72 sata
f. y=58 sata
g. y = 0,2542x - 4,8646; y=1,5 sati
9.
a.
b. y = -0,9497x + 122,89
c. r=-0,64838
10.
a.
b. y = 0,241x + 5,0444
c. r= 0,528271
11.
a.
b. y = 0,5223x + 0,6278
c. r=0,661921
12.
a.
b. y = 0,4116x - 1,6071
c. r=0,670059
228
13.
a.
b. r=0,085
14.
a.
b.
c.
15.
a.
b. r=0,844
c. y = 0,4966x + 67,468
d. y=77,4
e. z=0, X=M+zs=35,1; y=84,9
16.
b. r=0,864
c. y = 0,2965x + 25,489
d. x=0; y=25,489 m
e. x=120; y=61,1 m
229
a. r=0,136
b. za mlae adolescente r=0,526; za starije ispitanike r=0,251
c. U istraivanju su sudjelovali ispitanici razliite dobi (heterogene grupe ispitanika)
17.
a.r=0,500
b. y = 0,1931x + 4,8944
c. sy=3,67; sy,x=3,18
d. y=14,55
e.i. Ako je sy=0, onda je r=+/- 1. y=+/-1 x (3,67/9,52) x (40-34,21) + 11,5 = +/-2,23 + 11,5= 9,27 i 13,73
e.ii. Ako je sy=max, onda je r=0; y=My=11,5
18.
a. sy,x=7
b. sy,x=3,5; sy,x2=sy2(1-r2) r2=(sy2-sy,x2)/sy2=0,8775: r=0,937
230
ii
iii
pretpostavki. Autor na poetku poglavlja vrlo struno i za studente prihvatljivo objanjava zato su
hipoteze vane i kako se one definiraju, te u poglavljima devet i deset daje prikaz osnovnih testova
za ispitivanje znaajnosti razlika artimetikih sredina (t-testova i analizi varijanci). U posljednjem
jedanaestom poglavlju studenti imaju priliku proitati i nauiti to je to povezanost izmeu dvije
varijable, te nauiti kako se testira znaajnost korelacije.
Ovaj prirunik predstavlja jedinstveno djelo po pristupu u objanjavanju statistikih koncepata. Na
prvo itanje je jasno da je napisan od strane autora koja ima viegodinje iskustvo u poduavanju
studenata statistici. Autor pie tako da prati misaoni tok studenta i daje mu upravo onoliko
informacija koliko je potrebno da se shvati sutina. Autor potuje sve principe logikog izlaganja i
ide od jednostavnijih ka teim stvarima, a apstraktne koncepte objanjava kroz razumljive praktine
primjere i slikovne prikaze koji omoguavaju studentima da u potpunosti razumiju to se, u stvari
krije iza formula. Na kraju svakog poglavlja autor daje zadatke za vjebanje kako bi studenti
izgradili znanje i vjetinu obrade podataka, te tako postali samostalni i kompetentni za budui rad.
Ovaj prirunik je usmjeren prema studentu i napisan je za studenta i moe sluiti kao primjer
metodiki adekvatnog i psiholoki motivirajueg materijala. Autor je uspio pokazati da je kao
strunjak i naunik vrsni poznavalac statistike, a da je kao nastavnik okrenut prema studentu i
sposoban vrlo sloene stvari objasniti tako da ga razumiju i oni koji ne vole matematiku.
Koritenje ovog prirunika kod studenata e zasigurno umanjiti anksioznost od pripreme ispita, te
razbiti predrasude o statistici kao matematici rezerviranoj samo za odabrane. Ovaj prirunik e
omoguiti svim zainteresiranim studentima da doive statistiku kao temelj istraivanja, zakljuivanja
i predvianja u psihologiji.
Biografija
Nermin apo roen je 14. 1. 1970. godine u Mrkonji Gradu. Diplomirao je na Filozofskom
fakultetu u Sarajevu, Odsjek za psihologiju. Od 1997. godine zaposlen je na Odsjeku za psihologiju,
naprije kao asistenta na predmetima Statistika u psihologiji i Metodologija istraivanja u psihologiji,
zatim kao vii asistenta na predmetima Statistika u psihologiji i Opa psihologija II, a od 2007.
godine kao docenta na predmetima Statistika u psihologiji i Kognitivna psihologija. Na Filozofskom
fakultetu u Zagrebu 2001. godine odbranio je magistarsku radnju pod naslovom Kompozitno
pamenje i kohezija memorijskih tragova. Doktorsku disertaciju Interna i eksterna validacija
dinamikog testiranja inteligencije odbranio je 2006. na Odsjeku za psihologiju Filozofskog
fakulteta u Sarajevu. U okviru strunog i naunog usavravanja boravio je na LMU u Minhenu,
Njemaka i Institutu za psihologiju u Geteborgu, vedska. Podruje strunog i naunog rad su
primijenjena statistika, inteligencija i nadarenost. Objavio je vie naunih i strunih lanaka, u
autorstvu i koautorstvu, u domaim i internacionalnim asopisima (Naa kola, Didaktiki putokazi,
Psihologijske teme, Group Dynamics: Theory, Research and Practice, Journal of the American
Academy of Child and Adolescent Psychiatry, Mankind Quarterly, Personality and Individual
Differences, Temas em Psicologia). Sudjelovao je kao voditelj ili konsultant na vie istraivakih i
aplikativnih projekata. Uestvovao je na domaim i meunarodnim naunim i strunim skupovima i
seminarima.
Ratko oki roen je 3. 1. 1979. godine u Sarajevu. 2002. godine diplomirao je na Odsjeku za
psihologiju Filozofskog fakulteta u Sarajevu. Od 2001. do danas uestvovao u ili vodio niz projekata
socijalnih, trinih i medijskih istraivanja te istraivanja javnih politika (za klijente kao to su
UNICEF, BBC World Service Trust, Intermedia Washington, Unilever, UNDP, Save the Children
UK, Vijee za tampu BiH...). Od 2007. godine radi na Odsjeku za psihologiju Filozofskog fakulteta
u Sarajevu gdje je kao asistent angaovan na predmetima Statistika u psihologiji I i II, Metodologija
eksperimentalne psihologije i Metodologija neeksperimentalne psihologije. Trenutno pohaa
Doktorski studij psihologije u Zagrebu.
vi