Professional Documents
Culture Documents
Metodologija - Slavo Kukić, Brano Markić - A4
Metodologija - Slavo Kukić, Brano Markić - A4
.
Raz-
red
Donja
granica
Gornja
granica
Sredina
razreda
Frek-
vencija
Relativna
frekvencija
Kumulativna
frekvencija
Kumulativna
relativna
frekvencija
1 2,700 2,942 2,821 31 0,21 31 0,21
2 2,942 3,184 3,063 18 0,12 49 0,33
3 3,184 3,426 3,305 15 0,10 64 0,43
4 3,426 3,668 3,547 21 0,14 85 0,57
5 3,668 3,910 3,789 29 0,19 114 0,76
6 3,910 4,152 4,031 19 0,13 133 0,89
7 4,152 4,394 4,273 8 0,05 141 0,94
8 4,394 4,636 4,515 5 0,03 146 0,97
9 4,636 4,878 4,757 0 0,00 146 0,97
10 4,878 5,120 4,999 4 0,03 150 1,00
150 1
T,8-/), 6.6.4.I Distribucija frekvencija broja eritrocita za 150 pacijenata
Razredi uvijek ne moraju biti iste sirine. Bitno je da su oni medusobno iskljuivi, a
to znai jedna jedinica populacije je u samo jednom razredu. Osim toga, dva susjedna
razreda ne moraju imati zajedniku granicu. Prije analize distribucije frekvencija razreda
razliite sirine, potrebno je odrediti prave granice.
Broj podataka u razredu je njegova apsolutna frekvencija (npr. apsolutna
frekvencija prvog razreda je 31). Ako su podaci razvrstani u 5 razreda, onda ce se
apsolutne frekvencije oznaiti s f1; f2,..., fk. U danom primjeru je f1=31, f2=18, f3=15 ...
f10=4. U tom je sluaju f1+ f2 + f3 +...+ f10=31+18+15+...+4=150. Zbroj svih apsolutnih
frekvencija je opseg osnovnog skupa.
133
Relativna frekvencija je omjer apsolutne frekvencije i opsega osnovnog skupa tj.:
&
#
p
i
i
; 21 , 0
150
31
&
#
p
1
1
.
Zbroj svih relativnih frekvencija uvijek je 1, tj. * 1 p *** p p
k 2 1
+ + +
Ako razredu nedostaje jedna od dviju granica, onda je on otvoren. Primjera radi,
razredi u slijedecoj tablici se formiraju na temelju dobi pacijenta:
Razred: dob
do 7
8 do 15
16 do 23
.......
56 do 63
64 i stariji
Pravilnosti i zakonitosti tesko je uoiti u izvornim podacima. Zato se kvantitativni
podaci ureduju u numeriki niz po veliini ili grupiranjem u razrede. Ako su podaci
kontinuirani, onda se formiraju razredi.
6.2.7. G(,:/45/ 2(/5,? 5;,*+/+,+/;*/A 27.,+,5,I A/1+79(,6 / 27-/97*
Povrsinski dijagrami i dijagrami strukture slue za prikaz kvalitativnih podataka. Ili,
slueci se porukom poznate izreke, jedna slika vrijedi kao tisucu rijei. Kvantitativni
podaci se mogu prikazivati u grafikom obliku.
6.2.7.1 #/1+79(,6
Kada se crta histogram, analizirana pojava se prikazuje na vodoravnoj osi (mjerilo za
vrijednosti numerikog obiljeja), a na okomitoj apsolutna frekvencija (ako se crta
histogram frekvencija) ili relativna frekvencija. Pravokutnici u histogramu frekvencija se
crtaju u sredini razreda, a njegova visina je odredena frekvencijom.
P(/6&'( 6.7.1I Prikazati histogram frekvencija za statistiki skup broja eritrocita u krvi na
temelju podataka iz tablice 6.6.4.
Histogram frekvencija
0
5
10
15
20
25
30
35
2,82 3,06 3,31 3,55 3,79 4,03 4,27 4,52 4,76 5
+redine ra"reda
)
r
e
k
v
e
n
c
i
j
a
134
,%voreni
ra"redi
S-/5, 6.7.1I Histogram frekvencija broja
eritrocita prikazanih u tablici 6.6.4
Najrasireniji linijski dijagram prikaza numerikih nizova je poligon frekvencija. Kao i
kod histograma na vodoravnoj osi je mjerilo za vrijednosti numerikog obiljeja analizirane
pojave), a na okomitoj osi apsolutna frekvencija. Ponekad se naziva i mnogokutnikom jer
linije koje povezuju vrhove ordinata (frekvencije razreda) tvore veci ili manji kut. Poligon
frekvencija na temelju podataka iz tablice 6.6.4 ima slijedeci izgled:
Poli-on #rekvencija
0
5
10
15
20
25
30
35
2
,
8
2
1
3
,
0
6
3
3
,
3
0
5
3
,
5
4
7
3
,
7
8
9
4
,
0
3
1
4
,
2
7
3
4
,
5
1
5
4
,
7
5
7
4
,
9
9
9
+redina ra"reda
)
r
e
k
v
e
n
c
i
j
a
S-/5, 6.7.2.: Poligon frekvencija broja eritrocita prikazanih u tablici 6.6.4
Prednosti poligona frekvencija u odnosu na histogram frekvencija u jednostavnijem
su i jasnijem prikazu. Oblik linije asocira na oblik distribucije frekvencija. Ako je ranije
nacrtan histogram frekvencija, onda je dovoljno povezati sredine vrhova stupaca i kreiran
je poligon frekvencija.
6.2.8. K>6>-,+/;*' ./1+(/8>)/&' :('5;'*)/&, / 5>6>-,+/;*/ 27-/97*/
Tablice kumulativne distribucije frekvencija su jednostavna sredstva analize
podataka. Ponekad se ta empirijska funkcija distribucije naziva "kumulativni niz", a formira
se zbrajanjem originalnih frekvencija (apsolutnih ili relativnih) numerikog niza. Prvo je
potrebno pojasniti kako se formira kumulativni niz "manje od" za diskontinuiranu
numeriku varijablu, za ije razrede su izraunate apsolutne frekvencije. Pretpostavka je da
statistiki skup ima n razreda ije su granice odredene vrijednostima x1, x2, ..., xn, xn+1.
Razredi su oznaeni respektivno s C1, C2, ..., Cn. Razred Ck = [xk, xk+1) .
S-/5, 6.8.1: irine razreda
Apsolutna frekvencija razreda Ck je fk, a relativna frekvencija rk. Postavi li se pitanje koliko
pacijenata ima manje od 2,942 eritrocita, onda je odgovor apsolutna frekvencija prvog
razreda. Taj broj pacijenata je 31, odnosno apsolutna frekvencija f1. Koliko pacijenata ima
manje od 3,063 eritrocita? Odgovor je 31+18=49 ili f1+ f2=49. Opcenito, broj pacijenata iji
je broj eritrocita manji ili jednak Xk+1 je zbroj apsolutnih frekvencija f1+ f2 + f3+ ...fk. Slina
135
logika se moe upotrijebiti za kumulativnu relativnu frekvenciju. Korespondirajuca
kumulativna relativna frekvencija je r1 +r2+...+rk.
P(/6&'( 6.8.1I Tablica 6.6.4 prikazuje frekvenciju, kumulativnu frekvenciju, relativnu
frekvenciju i distribuciju kumulativnih relativnih frekvencija eritrocita u krvi 150 pacijenata.
.u/ula%ivne #rekvencije
0
20
40
60
80
100
120
140
160
2
,
8
2
3
,
0
6
3
,
3
1
3
,
5
5
3
,
7
9
4
,
0
3
4
,
2
7
4
,
5
2
4
,
7
65
+redine ra"reda
)
r
e
k
v
e
n
c
i
j
a
S-/5, 6.8.2.I Kumulativna frekvencija broja
eritrocita u krvi 150 pacijenata
6.2.9. Z,.,)/ ?, ;&'C8>
Ekonomski institut je istraivao misljenje 1652 ispitanika medijima ekonomske
propagande. Odgovori na pitanje, koja su najvanija sredstva ekonomske propagande,
prikazani su u tablici:
M'./& R'-,+/;*,
:('5;'*)/&,
Tjednik 0.04
Radio 0.31
Televizija 0.52
Dnevne novine 0.09
Reklamni panoi 0.02
Drugi mediji 0.02
Zadatak je:
a) Upotrijebiti jednu od grafikih metoda prikaza podataka.
b) Koja je proporcija ispitanika misljenja da su televizija ili dnevne novine najbolja
sredstva ekonomske propagande.
c) Izraunati apsolutne frekvenciju odgovora ispitanika.
d) Prikazati kumulativne frekvencije odgovora ispitanika.
6.3. MJERE "ENTRALNE TENDEN"IJE0 RASPR<ENJA I STATISTIKI MOMENTI
6.3.1. $;7.
U ranijim poglavljima originalni podaci (podaci dobiveni prikupljanjem) su
smjesteni u tablice i prikazani odgovarajucim dijagramima. U poglavlju koje slijedi iz tih
sirovih (originalnih) podataka bit ce izraunat niz pokazatelja koji ce posluiti za analizu i
interpretiranje kvantitativnih podataka. Cetiri su mjere pokazatelja najznaajniji i to:
a) Centralne tendencije
b) Disperzije
c) Relative standing
136
d) Rasprsenja
Ako se te mjere izraunavaju iz cijele populacije, onda se nazivaju parametri. Ako se
izraunavaju iz uzoraka (uzorci se preferiraju u statistici), nazivaju se statistike
(1+,+/1+/)1H.
6.3.2. M&'(' )'*+(,-*' +'*.'*)/&'
Mjere centralne tendencije usporeduju dvije distribucije frekvencija, pri emu je
svaka distribucija prikazana samo jednim parametrom ili karakteristikom. Postoji vise mjera
centralne tendencije i zato je uvijek dvojba koju vrijednost upotrijebiti. Naravno, razliit je i
nain izraunavanja srednje vrijednosti koja prikazuje centralnu tendenciju neke distribucije
frekvencija.
Svojstva srednjih vrijednosti glavni su kriterij izbora te mjere u odredenoj situaciji.
6.3.2.1. A(/+6'+/45, 1('./*,
D':/*/)/&, 3.1I Ako su
n
x x x , , ,
2 1
vrijednosti varijable x, onda je aritmetika
sredina x jednaka :
n
0
n
0 *** 0 0
0
n
1 i
i
n 2 1
+ + +
D':/*/)/&, 3.1,I Aritmetika sredina populacije izraunava se po formulu
&
0
&
1 i
i
gdje je: K/ vrijednost numerikog obiljeja, a N broj jedinica
populacije.
Definicije aritmetike sredine populacije i uzorka su jednake. To vrijedi i za ostale
mjere centralne tendencije. Ali za varijance uzorka i populacije formule su razliite.
P(/6&'( 3.1I Dane su vrijednosti statistikog obiljeja: 3.5; 6.8; 6.4; 2.5; 5.4; 9.4; 12.9;
8.1. Po definiciji: x = (3.5 + 6.8+6.4+ 2.5+ 5.4+9.4 + 12.9 + 8.1)/8 = 6.875
6.3.2.1.1. P('.*71+/ ,(/+6'+/45' 1('./*'
Aritmetika sredina je jedinstvena mjera tendencije vrijednosti numerikog
obiljeja. Pogodna je za usporedbe tendencije vrijednosti vise skupova podataka. Zbroj
odstupanja originalnih vrijednosti obiljeja od aritmetike sredine jednak je nuli. Znai:
0 ) 0 0 1
n
1 i
i
i 0 ) 0 0 1 #
n
1 i
i i
; gdje su:
fi frekvencija statistikog obiljeja ili frekvencija razreda,
xi vrijednost numerikog obiljeja ili sredine razreda,
0
srednja vrijednost (aritmetika sredina).
Zbroj kvadrata odstupanja originalnih vrijednosti numerikog obiljeja od
aritmetike sredine jednak je minimumu. Dakle:
/in ) 0 0 1
2
n
1 i
i
+ + + + + + +
Harmonijska sredina je:
28 * 28
41
1
44
1
38
1
12
1
56
1
32
1
34
1
21
1
8
0
1
n
3
n
1 i i
+ + + + + + +
+ + + +
. Logaritam geometrijske sredine
jednak je aritmetikoj sredini logaritama vrijednosti numerike varijable.
n
0
1
n
0
1
***
0
1
0
1
0
1
3
1
n
1 i i n 3 2 1
+ + + +
. Reciprona vrijednost harmonijske sredine jednaka je
aritmetikoj sredini recipronih vrijednosti numerike varijable.
6.3.2.3. M'./&,*
42
Ostale potpune srednje vrijednosti: harmonijska sredina, geometrijska sredina, vagana harmonijska
sredina, aritmetika sredina relativnih brojeva koordinacije izvan su ciljeva postavljenih u
udbeniku. One su dio sadraja svakog udbenika statistike.
138
D':/*/)/&, 3.2I Medijan m je vrijednost koja niz podataka uredenih po veliini
dijeli na dva jednaka dijela. Polovina podataka je manja od medijana m, a druga
polovina je veca.
Formula za izraunavanje medijana sortiranog skupa podataka u rastucem redoslijedu je:
P(/6&'( 3.2I Odrediti medijan za skup podataka koga ine slijedece vrijednosti: 12; 8;
6;14;15;5; 9;19;17.
R&'3'*&': Prvo ce se sortirati skup vrijednosti u rastucem redoslijedu: 5; 6; 8; 9; 12; 14;
15;17;19. (roj n!'eri6/i) vrijednosti je ne-aran, n = 2 * 5 - 1, te je medijan m = x5 = 12.
Polovina podataka: 5,6,8,9 je manja od medijana, a druga polovina: 14,15,17,19 je veca
od vrijednosti m=12.
P(/6&'( 3.2I Dane su slijedece vrijednosti numerikog obiljeja: 14; 13; 12; 43; 17;
6;18;4. Odrediti medijan.
R&'3'*&'I Prvo se sortira skup vrijednosti u rastucem redoslijedu: 4;6;12;13;14;17;18;43.
Broj podataka je paran n = 2 x 4, onda je, po definiciji, 5 * 13
2
14 13
2
0 0
5edian
5 4
+
+
.
Temeljna prednost medijana nad aritmetikom sredinom je smanjenje utjecaja
ekstremnih vrijednosti na tu mjeru centralne tendencije
6.3.2.4. M7.
D':/*/)/&, 3.3I Mod je najesca vrijednost u nizu podataka. To je vrijednost
obiljeja koje ima najvecu frekvenciju.
P(/6&'( 3.3.3I Odrediti mod za podatke u slijedecoj tablici 3.1.
176 183 195 182 176
179 181 186 191 178
181 193 197 182 181
186 193 181 182 181
187 178 188 186 178
187 193 191 195 191
T,8'-, 3.1I Visine 30 studenata u cm
R&'3'*&'I Prvo ce se sortirati podaci u rastucem redoslijedu, a zatim izraunati apsolutne
frekvencije numerikog obiljeja visina studenata:
176 176 178 178 178
179 181 181 181 181
181 182 182 182 183
186 186 186 187 187
188 191 191 191 193
193 193 195 195 197
139
( )
'
+
+
paran) je n 1 k 2 n je ako 0 0
2
1
neparan) je n 1 1 k 2 n je ako 0
/ 5edijan
1 k k
k
Najesce se ponavlja vrijednost obiljeja 181 cm (najveca frekvencija), pa je mod 181 cm.
Skup podataka moe imati vise vrijednosti numerikih obiljeja ije su frekvencije najvece.
To je multimodalni skup podataka. Ako skup podataka ima samo jedan mod, onda vrijedi
slijedeca korisna empirijska relacija:
Aritmetika sredina-mod=3* (Aritmetika sredina-medijan)
Aritmetika sredina, medijan i mod su tri mjere centralne tendencije i one su razliite.
Najesce u uporabi je aritmetika sredina.
6.3.2.5. R,127* ;,(/&,)/&,
D':/*/)/&, 3.4I Raspon varijacija je razlika izmedu najvece i najmanje vrijednosti
numerikog obiljeja, odnosno
/in /a0 0
0 0 r
gdje je
/a0
0
= najveca vrijednost obiljeja,
/in
0 = najmanja vrijednost obiljeja.
6.3.3. V,(/&,*), / 1+,*.,(.*, .';/&,)/&,
Najvanije mjere disperzije su varijanca i standardna devijacija.
D':/*/)/&, 3.5I Varijanca je jednaka je aritmetikoj sredini kvadrata odstupanja
vrijednosti numerikog obiljeja od aritmetike sredine tog obiljeja:
( )
&
0
&
1 i
2
i
2
gdje je:
2
=varijanca populacije;
i
0 = vrijednost obiljeja;
= aritmetika
sredina populacije, te N = ukupan broj jedinica populacije.
Zato sto je varijanca prosjeno kvadratno odstupanje od aritmetike sredine
ponekad se naziva i srednje kvadratno odstupanje.
D':/*/)/&, 3.6I Standardna devijacija populacije je drugi korijen varijance.
( )
&
0 0
&
1 i
i
2
Mjerna jedinica varijance je kvadrat jedinice u kojoj su izraene vrijednosti
obiljeja, a mjerna jedinica standardne devijacije je ista kao i kod promatranog obiljeja.
D':/*/)/&, 3.6,I Varijanca uzorka za vrijednosti obiljeja
n
x x x , , ,
2 1
je
definirana formulom:
( )
1
2
1 2
n
x x
s
n
i
i
140
pri emu je :
2
s =varijanca uzorka; x = aritmetika sredina uzorka; n = broj
jedinica u uzorku.
Standardna devijacija uzorka je
2
s s .
U nazivniku varijance uzorka umjesto n uporabljeno je n-1 jer su statistiari pokazali da je
takva definicija varijance uzorka nepristrana procjena varijance populacije iz koje je uzet
uzorak. Oekivana vrijednost varijance
2
s je jednaka varijanci populacije.
6.3.3.1. P(/6&'*' 1+,*.,(.*' .';/&,)/&'
Standardna devijacija omogucuje procjenu vrijednosti statistikog obiljeja u
odnosu na aritmetiku sredinu. Ta procjena ima veliki stupanj pouzdanosti. U upotrebi je
teorem ruskog matematiara P.L. $heb*shev (1821-1894). One ce rijetko odstupati od
aritmetike sredine za vise od +3.
T'7('6 "A'8J1A';L,I Za bilo koji skup podataka s aritmetikom sredinom x i
standardnom devijacijom s najmanje 75M vrijednosti se nalazi u intervalu
s x 2 t i najmanje 88089M vrijednosti unutar intervala s x 3 t .
Moe se mjeriti postotak podataka koji se nalaze unutar odredenog intervala
vrijednosti za krivulju koja je zvonolika i simetrina u odnosu na aritmetiku sredinu
43
.
E62/(/&157 2(,;/-7
Za zvonolike distribucije, a takva je normalna distribucija:
U intervalu +4 1 0 nalazi se priblino 68% podataka,
U intervalu + 4 2 0 nalazi se priblino 95% podataka (najmanje 75% svih
podataka),
U intervalu +4 3 0 nalazi se priblino 99,7% podataka (najmanje 88,89% svih
podataka).
6.3.4. M&'(' ('-,+/;*' (,12(3'*71+/I 57':/)/&'*+ ;,(/&,)/&'
Standardna devijacija je apsolutna mjera rasprsenosti ija je jedinica mjere
jednaka jedinici mjere jedinica statistikog skupa. Za usporedivanje varijacija u statistikim
skupovima koji imaju razliite jedinice mjere ne moe se koristiti standardna devijacija.
Zato je potrebna mjera u kojoj nece biti bitne jedinice mjere. Tako je konstruiran
koeficijent varijacije. On je relativna mjera rasprsenosti koja moe usporediti rasprsenost
za dva razliita obiljeja, npr.: teine studenata u kilogramima i visine u centimetrima.
D':/*/)/&, 3.4.1I Koeficijent varijacije V je postotni omjer standardne devijacije i
aritmetike sredine
100 4
0
v
+
(izraunava se za paran broj podataka tj.
30=2*15). Mjesto tih kvartila je naznaeno na slici koja slijedi:
170 175 180 185 190 195
Min=176 Q1=181 M=184.5 Q3=191
Max=197
S-/5, 3.8.2I Pozicioniranje kvartila za podatke iz prethodne tablice
Slijedeca mjera relativne rasprsenosti je zD78/-&'C&' (standardizirano obiljeje). Ono
izraunava udaljenost vrijednosti obiljeja od aritmetike sredine mjereno standardnim
devijacijama.
D':/*/)/&, 3.14I Standardizirano obiljeje( z - obiljeje) se izraunava:
a) za populaciju: z=
x
gdje je x = vrijednost obiljeja uzetog iz populacije,
= aritmetika sredina
populacije, te
,
_
,
gdje je n broj jedinica uzorka,
i
x
vrijednost obiljeja i-te jedinica uzorak, te s standardna
devijacija uzorka.
Prema rasporedu podataka, distribucije mogu biti:
a) simetrine
144
b) pozitivno asimetrine
c) negativno asimetrine
Smjer asimetrinosti ovisi o mjestu ekstremnih vrijednosti. Ako distribucija ima
vise ekstremnih vrijednosti onda ce aritmetika sredina biti veca od moda i medijana i za
takvu distribuciju frekvencija se kae da je pozitivno (desno) asimetrina. Rep distribucije
je produljen na desnu stranu. Obrnuto, ako su mod i medijan veci od aritmetike sredine,
distribucija je negativno simetrina ili lijevo spljostena. Rep distribucije je produljen na
lijevu stranu. To pokazuju slijedece slike:.
Slika =#=a> Pozitivno asimetrina Slika =#=b> Negativno
145
distribucija asimetrina distribucija
6.3.5.2. K>(+71/1
Kurtosis ili zaobljenost distribucije se usporeduje sa normalnom (zvonolikom)
distribucijom. Kurtosis uzorka se izraunava po formuli.
) 3 )1 2 1
) 1 1 3
) 3 )1 2 )1 1 1
) 1 1
2
4
1
'
,
_
n n
n
s
x x
n n n
n n
Kurtosis
n
i
i
Distribucija podataka koja ima normalnu zaobljenost naziva se mezokurtina.
Vrijednost Kurtosisa je jednaka 0. Ako je Kurtosis>0 onda je distribucija siljasta
(leptokurtina), a ako je Kurtosis<0 onda se radi o plosnatoj (platikurtinoj) raspodjeli.
Normalna, siljasta i plosnata distribucija su prikazane na slijedecim slikama
Slika 3.4
Distribucije s
pozitivnim,
negativnim i
kurtosisom
jednakim nula
6.3.6. M'+7.' 7+5(/;,*&, ;,*&15/A ;(/&'.*71+/ G7>+-/'(H
D':/*/)/&, 3.15I Vrijednost obiljeja koja je relativno velika ili mala u odnosu na
ostale vrijednosti obiljeja nazivaju se vanjske vrijednosti ili 7>+-/'(. Te
vrijednosti obiljeja mogu biti pogresno upisane, dolaziti iz druge populacije ili se
radi o dogadajima koji su veoma rijetki.
Vanjske vrijednosti utjeu na oblik distribucije. One su veoma spljostene jer takva
distribucija ima tendenciju ukljuiti ekstremno male ili velike vrijednosti. U uporabi su
najesce dvije metode utvrdivanja vanjskih vrijednosti:
6.3.6.1. $27+('8, 1+,*.,(./?/(,*79 78/-&'C&,
Prema teoremu Chebysheva gotovo sve vrijednosti obiljeja se nalaze u intervalu
( ) s x s x 3 , 3 +
, gdje je x aritmetika sredina a s je standardna devijacija uzorka.
Vrijednosti obiljeja udaljene vise od tri standardne devijacije od aritmetike sredine su
ekstremne vrijednosti.
P(/6&'( 3.8I Visina studenata mjerena u centimetrima prikazana je u slijedecoj tablici:
176 183 177 182 176
179 181 186 191 178
181 182 174 182 181
186 177 181 162 181
187 178 188 186 178
187 182 212 182 191
146
T,8-/), 3.7I Visina studenata u centimetrima
Aritmetika sredina uzorka visine studenata je x = 182.23cm, standardna devijacija
populacije temeljena na uzorku s = 7.97.
Tri standardne devijacije su 3* s = 3*7.97=23.91
Standardizirano obiljeje za visinu 212 je 73 * 3
97 * 7
23 * 182 212
"
.
Buduci je ? vrijednost veca od tri standardne devijacije za visine studenata je ekstremna
vrijednost ili outliers u skupu vrijednosti visina studenata.
6.3.6.2. M'+7., %7K 2-7+
Druga metoda odredivanja ekstremnih vrijednosti je konstruiranje box plota
podataka. Koraci su slijedeci:
1. Izraunati medijan M, donji i gornji kvartil, Q1 i Q3, i interkvartil,
IQ = Q3 - Q1.
2. Konstruirati box s Q1 i Q3 postavljeni u lijevom kutu. Jedinica mjere ce biti
jednaka rasponu interkvartila. Nacrtati okomitu crtu unutar boxa koja
odreduje medijan M.
Konstruirati dva skupa granica u boxu: unutarnju donju medu postavljenu na
udaljenosti od 1.5 * IQ ispod Q1 i gornju unutarnju medu postavljenu na
udaljenosti od 1.5* IQ iznad Q3. Vanjske mede su postavljene na udaljenosti od
3 * IQ ispod Q1 i 3 * IQ iznad Q3.
Vrijednosti obiljeja, koje su izmedu unutarnje i vanjske mede, su oekivane
vanjske vrijednosti. Vrijednosti obiljeja, koje su izvan vanjskih meda, su ekstremne
vanjske vrijednosti.
Vanjska meda Unutarnja meda Unutarnja
meda Vanjska meda
*
*
Q1 M Q3
1.5 * IQ 1.5 * IQ IQ 1.5 * IQ 1.5 *
IQ
S-/5, 3.5I Box plot
147
220,00 210,00 200,00 190,00 180,00 170,00 160,00
220,00 210,00 200,00 190,00 180,00 170,00 160,00
30
22 18
S-/5, 3.6: Box plot za podatke iz tablice 3.7. upotrebom SPSS-a
6.3.7. I?(,4>*,;,*&' 6&'(, )'*+(,-*' +'*.'*)/&' ?, 9(>2/(,*' 27.,+5'
Prikazani postupci izraunavanja aritmetike sredine, medijana, moda, standardne
devijacije i sl. su se odnosile na cijeli statistiki skup. Promatrane su sve jedinice uzorka i
za njih su bile poznate sve vrijednosti obiljeja. Ako su podaci grupirani u razrede jednake
sirine, izraunate apsolutne frekvencije razreda i prikazane u tablici onda se moe uporabiti
alternativni postupak izraunavanja aritmetike sredine, standardne devijacije i sl.
P(/6&'( 3.8.1I U tablici su prikazane tablice frekvencija mjesenih placa uposlenih u
poduzecu X.
Redni
broj Razred Frekvencija
1 0 - 299.99 34
2 300 - 399.99 57
3 400 - 499.99 98
4 500 - 599.99 121
5 600 - 699.99 88
6 700 - 799.99 89
7 800 - 899.99 44
8 900 - 999.99 21
9 1000 - 1099.99 86
10 1100 - 1119.99 6
11 1200 -1299 5
Iz podataka u tablici moguce je jednostavno izraunati i procijeniti aritmetiku
sredinu i standardnu devijaciju. Formule za izraunavanje aritmetike sredine i standardne
devijacije grupiranih podataka su:
148
a)
n
0 #
0
k
1 i
i i
,
_
formula za standardnu devijaciju,
gdje su: 0 = aritmetika sredina skupa podataka, s = standardna devijacija uzorka, xi =
srednja vrijednost i-tog razreda, fi = frekvencija i-tog razreda, k = broj razreda, n =
ukupan broj jedinica u statistikom skupu (zbroj frekvencija svih razreda).
6.3.8. R,4>*,-*/ 17:+;'(/ ?, .'15(/2+/;*> 1+,+/1+/5>
Svaki raunalni softver za statistiku ima programske module za izraunavanje
parametara deskriptivne statistike. Prikazat ce se izlazi iz modula deskriptivne statistike
statistikog paketa SPSS i tablinog kalkulatora Excel za podatke iz Tablice 6.6.3:
Deskriptivna statistika
Mean 3,5382
Standard Error 0,044801533
Median 3,6
Mode 3,6
Standard Deviation 0,548704478
Sample Variance 0,301076604
Kurtosis
-
0,363982088
Skewness 0,344011017
Range 2,42
Minimum 2,7
Maximum 5,12
Sum 530,73
Count 150
Largest(1) 5,12
Smallest(1) 2,7
Confidence Level(95,0%) 0,088528441
S-/5, 3.10I Deskriptivna statistika upotrebom Excela
6.3.9. V&'C8,
Dnevni troskovi studenta prikazani su u slijedecoj tablici:
23 25 45 18 17 27 15
14 280 18 17 190 29 45
16 21 12 18 19 17 15
31 37 19 18 15 28 23
85 25 28 34 22 18 33
Zadatak je:
a) Izraunati x , s
2
i s.
b) Prikazati S-L za podatke iz tablice.
c) Izraunati intervale s x t , s x 2 t i s x 3 t
d) Izraunati troskove koji su unutra intervala iz c dijela zadatka.
149
6. 4. VJEROJATNOST
6.4.1.E512'(/6'*+0 .79,B,&/ / ;&'(7&,+*71+0 ;&'(7&,+*71+ .79,B,&,
U matematikoj teoriji vjerojatnosti osnovni pojam je elementarni dogadaj. On je
ishod koji se ne moe rastaviti na jednostavnije ishode. Kao rezultat pokusa moe se
pojaviti samo jedan elementarni ishod. Elementarni dogadaji se oznaavaju velikim slovima
A0 %0 "0 D0...
Skup svih mogucih elementarnih dogadaja nekog pokusa se oznaava sa S. Svaki
podskup A skupa S je sluajan dogadaj. Sluajni dogadaj A je nastupio ako je rezultat
pokusa jedan od elementarnih ishoda koji pripada dogadaju A.
P(/6&'( 4.1I Bacanje novica je pokus. Bacimo novic i provjerimo je li se pojavila Glava ili
Pismo. Moe se pojaviti jedan od dva dogadaja:
G: pojavila se glava,
P: pojavilo se pismo.
Vjerojatnost dogadaja A je sansa da se dogadaj A pojavi. Oznaava se s P(A).
Kako se odreduje vjerojatnost dogadaja (sansa da ce se on pojaviti)? To je pitanje na koje
ce se odgovoriti u slijedecim poglavljima.
6. 4.2. P(/1+>2/ .':/*/(,*&> ;&'(7&,+*71+/
Postoji vise pristupa definiranju vjerojatnosti. Te se definicije i pristupi mogu
svrstati u tri skupine:
f) definicija vjerojatnosti kao kvantitativna mjera izvjesnosti pojave dogadaja,
g) klasina definicija koja se temelji na jednakoj sansi,
h) definicije koje se temelje na relativnoj frekvenciji pojave dogadaja za veci
broj pokusaja.
Prvi pristup definiranju vjerojatnosti temelji se na promatranju dogadaja neovisno
o promatrau (onome tko izvodi eksperiment). Vjerojatnost koja ovisi o promatrau naziva
se subjektivna vjerojatnost. Mi cemo se koncentrirati na klasini i statistiki pristup
definiranju vjerojatnosti.
6. 4.3 P7-&' .79,B,&,
Prije prikaza klasine definicije vjerojatnosti potrebno je objasniti relacije izmedu
dogadaja u tijeku ponavljanja pokusa. Ako se dogadaj % pojavljuje svaki put kada se pojavi
dogadaj A kae se da A implicira % i pise A B .
Ako se u pokusu dogadaji A i B istodobno pojavljuju ili ne pojavljuju kae se da su
oni ekvivalentni i pise A=B.
Dogadaj je proizvod ili presjek dogadaja A i B ako se oni pojavljuju simultano. To
se zapisuje kao AB ili A B.
Dogadaj koji se sastoji u pojavi jednog od dva dogadaja A ili B naziva se zbroj ili
unija i oznaava A+B ili A B.
Sloeni dogadaj koji se sastoji u pojavi dogadaja A i nepojavljivanju dogadaja B
naziva se razlika dogadaja A i B i oznaava A-B ili A\B.
Dogadaj je siguran ako se on pojavljuje svaki put kada se realizira pokus. Dogadaj
je nemoguc ako se ne pojavljuje nikada u tijeku realizacije pokusa. Svi sigurni dogadaji su
medusobno ekvivalentni. Oznaava ih se sa S. Ekvivalentni su i svi nemoguci dogadaji.
Oznaavaju se s 0.
Dva dogadaja A i A su komplementarna ako je E A A + i A A O 0.
Primjerice, eksperiment bacanja kocke kod koje se moe pojaviti 1,2,3,4,5 ili 6.
Komplementarni su dogadaji:
parno
'
= Pojavljuje se paran broj tj. 2,4 ili 6.
150
neparno
'
=Pojavljuje se neparan broj tj.1,3 ili 5.
Dva su dogadaja medusobno iskljuiva ako svaki put kada se pojavi jedan dogadaj
drugi se ne pojavljuje.
Dogadaj A je dekomponiran na medusobno iskljuive dogadajeB1, B2, ..., Bn ako je
A=B1+B2+...+Bn i dogadaji Bi (i =1,2,...,n) su medusobno iskljuivi.
Dogadaj je elementaran ako se ne moe dekomponirati na druge dogadaje.
Dogadaji bacanja kocke su elementarni.
Sve relacije izmedu dogadaja mogu se prikazati geometrijski 6enovim
dijagramima. U tim dijagramima potpuni prostor dogadaja prikazuje pravokutnik a
dogadaji su dio. Dva medusobno iskljuiva dogadaja nemaju preklapajucih dijelova. Ako
dogadaji nisu medusobno iskljuivi onda imaju preklapajuci dio sto prikazuje slijedeca slika:
Slika ?#@a> Dva medusobno
iskljuiva dogadaja
Slika ?#@b> Dva medusobno
neiskljuiva dogadaja
A
A
B
B
A+B AB
S-/5, 4.2I Dogadaji B , B, A A, / AB
U teoriji vjerojatnosti najesce se susrecemo sa skupom dogadaja S.
D':/*/)/&, 4.3I Skup dogadaja S se naziva polje dogadaja ako zadovoljava
slijedece uvijete:
Ako dogadaji A i B pripadaju skupu dogadaja S, onda skupu dogadaja pripadaju i
dogadaji AB, A+B i A-B. Skup dogadaja S sadri i siguran dogadaj S i nemoguc
dogadaja 0.
6.4.4.1 K-,1/4*, .':/*/)/&, ;&'(7&,+*71+/
151
Klasina definicija vjerojatnosti reducira koncept vjerojatnosti na koncept jednake
vjerojatnosti dogadaja. Svaki moguci elementarni dogadaj ima jednaku vjerojatnost
pojavljivanja, primjerice, bacanje novica ili bacanje kocke. Glava i pismo imaju jednaku
vjerojatnost pojavljivanja. Isto tako svaka od sest stranica kocke ima jednaku vjerojatnost.
D':/*/)/&, 4.4 (klasina definicija vjerojatnosti): Vjerojatnost pojavljivanja
dogadaja A, P(A) je jednaka broju mogucih pojavljivanja dogadaja (ishoda)
podijeljenim s brojem mogucih pojavljivanja svih dogadaja u eksperimentu:
&
/
P19)
gdje je m broj elementarnih dogadaja koji tvore dogadaj A, a Nukupan broj svih
jednako mogucih elementarnih dogadaja.
P(/6&'( 4.4I U eksperimentu bacanja novica prostor dogadaja se sastoji od dva
jednostavna dogadaja: Glave i Pisma.Ta dva dogadaja imaju jednake vjerojatnosti:
P(G)=P(P)=1/2.
Polazne tvrdnje u teoriji vjerojatnosti su aksiomi o vjerojatnosti. Iz njih se izvode
teoremi.
S;7&1+;, ;&'(7&,+*71+/I
Za svaki dogadaj A polja S, P(A) 0
Za svaki siguran dogadaj S0 P(S) = 1
Ako su A1, A2,.. Ak medusobno iskljuivi (nespojivi) dogadaji, tada je:
PGA1
A2
0 +vi
1 p10)
6.5.2. V'?, /?6'B> ./1+(/8>)/&' ;&'(7&,+*71+/ ./15('+*' ;,(/&,8-' / ('-,+/;*/A
:('5;'*)/&,
Ako bi se pokus bacanja novica ponovio veliki broj puta i zabiljeio ishod bacanja
(pojava glave), onda bi relativna frekvencija distribucije za varijablu x (pojave glave) bila
gotovo jednaka distribuciji u Tablici 1. Glava bi se za redom pojavljivala dva puta (x=2)
puta, jednom u dva bacanja (x=1) polovinu puta od ukupnog broja bacanja novica i ne bi
se pojavljivala u dva bacanja novica puta ukupnog broja puta bacanja novica:
P(x=0)=p(0)=0.25.
6.5.2.1. A(/+6'+/45, 1('./*, /-/ 74'5/;,*, ;(/&'.*71+
Posto je distribucija vjerojatnosti za sluajnu varijablu x, model relativne
distribucije frekvencija moe se opisati mjerama centralne tendencije: aritmetikom
sredinom, standardnom devijacijom. Oekivana vrijednost ili aritmetika sredina sluajne
varijable x, oznaava se simbolom E(x), i jednaka je:
+vi 0
p10) 4 0 <10) =
P(/6&'( 5.6I Ako bi se nastavio raniji pokus i biljeili rezultati bacanja dva novica 500000
puta, onda se moe oekivati da se glava nije dobila ni jedanput {P(x=0)=0.25} u priblino
125000 puta, dva puta {P(x=2)=0.25} isto tako priblino 125000 puta, a jedanput u
polovini broja bacanja { P(x=1)=0.5} tj. 250000 puta.
Srednja vrijednost tih 500000 bacanja dva novica je:
+ +
+ +
2
0 i
i 1
2
0 i
i i
0 4 ) 0 1 p ) 2 1
4
1
) 1 1
2
1
) 0 1
4
1
000 , 500
) 2 1 000 , 125 ) 1 1 000 , 250 ) 0 1 125000
n
0 4 #
Srednja vrijednost za x je
1
.
Ako je x sluajna varijabla, onda je sluajna varijabla svaka funkcija od x tj.
vrijednost funkcije g(x) je sluajna varijabla. Oekivana vrijednost funkcije g(x) je:
0 +vi
-10)p10) <>-10)?
gdje je: p(x) distribucija vjerojatnosti, a g(x) funkcija sluajne varijable x.
6.5.2.2. V,(/&,*), / 1+,*.,(.*, .';/&,)/&,
157
Bitna svojstva sluajne varijable su i varijanca i standardna devijacija.
Izraunavaju se na slijedeci nain:
? ) @ <>10
2 2
2
P(/6&'( 5.7: Izraunati varijancu i standardnu devijaciju za pokus bacanja dva novica i
funkciju distribucije vjerojatnosti sluajne varijable x (broj pojavljivanja glave u dva
bacanja novica).
U ranijem primjeru je izraunata srednja vrijednost za xi ona je 1 tj. =1.
2
1
4
1
4 ) 1 2 1
2
1
4 ) 1 1 1
4
1
4 ) 1 0 1 ) 0 1 p ) @ 10 ? ) @ <>10
2 2
2
0 0
2
i
2
i
2 2
,
_
,
_
,
_
707 * 0
2
1
2
6.5.3. %/*76*, ./1+(/8>)/&, ;&'(7&,+*71+/
Ako postavimo pitanje kolika je vjerojatnost da ce u 100 uzastopnih bacanja
novica glava pasti u 50 bacanja, postavili smo zadatak rjesiv pomocu binomne distribucije.
Ili drugi primjer: Kolika je vjerojatnost da ce u 1000 proizvoda njih 4 biti neispravna ako se
na svakih 100 proizvoda pojavljuje 99 ispravnih? I takav zadatak rjesiv je pomocu binomne
distribucije. to je onda binomna distribucija i kada se moe upotrijebiti? Prvo je potrebno
objasniti pojam Bernoullijev dogadaj (prema svicarskom matematiaru ;acob 7ernoulli).
To je dogadaj koji se sluajnim pokusom ostvaruje uvijek s istom vjerojatnoscu, (. Svi
drugi moguci ishodi takvog pokusa su komplementarni Bernoullijevom dogadaju.
Model binomne sluajne varijable zadovoljava slijedece uvjete:
a) Pokus ini n neovisnih pokusaja.
b) Moguca su samo dva ishoda: uspjeh i neuspjeh.
c) Vjerojatnost uspjeha, odnosno neuspjeha u svakom pokusaju je konstantna.
Vjerojatnost uspjeha je (, a neuspjeha A (ili q=1-p). Ponavljanje pokusa n puta moe
rezultirati s B ili najvise n Bernoullijevih dogadaja. Binomna sluajna varijabla x je broj
uspjeha u n pokusaja.
Vjerojatnosti da ce se u n pokusa dogadaj dogoditi k puta opisuje binomna
razdioba:
k n k
A p
k
n
) k 1 P
,
_
gdje je k broj ostvarenih dogadaja, ( vjerojatnost uspjeha u jednom pokusaju, te A
vjerojatnost komplementarnog dogadaja, tj. q=1-p,
)B k n B41 k
B n
k
n
,
_
,
_
,
_
3 8 3 k n k
) 3 * 0 1 1 4 3 * 0 4
3
8
A p
k
n
) k 1 P
25 * 0 16807 * 0 4 027 * 0 4 120 7 * 0 4 027 * 0 4
B 5 B4 3
B 8
5
b) vjerojatnost da ce tri i vise od tri farmera nepravilno upotrijebiti pesticide je:
P(k 3) = p(3)+p(4)+p(5)+ p(6)+ p(7)+ p(8)= 0.25+0.14+0.05+0.01+0.0012+0.0001=
0.45
c) P(k<3) = p(0)+p(1)+p(2)=0.05+0.2+0.3=0.55 ili P(k<3) = 1-P(k 3) = 1-0.45
=0.55.
Binomna distribucija se moe prikazati u obliku histograma. Na slijedecoj slici je prikazana
binomna distribucija u obliku histograma za razliite vrijednosti k=0,1,2,...,8.
S-/5, 5.2 Binomna distribucija
Na apscisi su vrijednosti za k, a na ordinati vjerojatnost broja farmera koji
nepravilno primjenjuju pesticide. Jedna vodoravna crta oznaava vjerojatnost 0.2. to se (
vise razlikuje od 0.5, to je razdioba vise asimetrina. Za p=0.5 binomna razdioba je
simetrina. Slijedeca slika prikazuje binomnu raspodjelu za p=0.5:
159
S-/5, 5.3 Simetrina binomna distribucija za p=0.5
Binomna distribucija postaje sve simetrinija povecanjem broja dogadaja n.
6.5.4. P7/117*7;, ./1+(/8>)/&,
Poissonova distribucija je nazvana prema francuskom matematiaru S#)# Poisson
(1871-1940). Moe se upotrijebiti za opis veceg broja procesa kao sto je broj radioaktivnih
raspada u uzorku koji sadri radioaktivni element, broj telefonskih poziva koji prolaze kroz
telefonsku centralu, broj nezgoda, broj kapi kise koje padaju na neku povrsinu, broj krada,
broj zahtjeva za zdravstvenim uslugama, broj posjeta mrenom posluitelju i sl. Broje se
dogadaji koji mogu nastupiti u bilo kojem trenutku s prosjenom uestaloscu, , u jedinici
vremena. Vjerojatnost kojom se mogu pojaviti dogadaji u jednoj jedinici vremena je
jednaka za sve dogadaje.
Vjerojatnost da u jedinici vremena nastupi k dogadaja, ija prosjena uestalost
iznosi , prikazana je slijedecom formulom:
kB
e
p1k)
k
( k = 0, 1, 2,...),
je prosjean broj dogadaja tijekom danog vremenskog razdoblja
e = 2.71828.. (baza prirodnog logaritma).
Srednja vrijednost je:
, a varijanca:
2
.
P(/6&'( 5.12: Potrebno je is traiti sigurnost nekog raskrija u prometu. Prosjean broj
nezgoda na tom raskriju je 5 tijekom mjeseca. Pretpostavka je da je broj nezgoda
distribuiran prema Poissonovoj distribuciji. Izraunati i grafiki prikazati vjerojatnost za 1,
2, 3,4 ....19,20 nezgoda u mjesecu.
R&'3'*&'I Prema Poissonovoj distribuciji za prosjeno 5 nezgoda mjeseno vjerojatnost
dogadanja nezgoda k =1,2,3,4,...,19,20 mjeseno je:
B k
e 5
) k 1 p
5 k
.
Vjerojatnost da nece biti nezgode, k=0, je: ** 00673796 * 0
71828 * 2
1
B 0
e 5
) 0 1 p
5
5 0
160
S-/5, 5.3I Poissonova distribucija za =5
Moguce je prikazati vjerojatnost pojave nezgode na tom raskriju u tablinom obliku:
k4broj
nezgoda
(CkD 4
vjerojatnost
nezgode
0 0.006738
1 0.03369
2 0.084224
3 0.140374
4 0.175467
5 0.175467
6 0.146223
7 0.104445
8 0.065278
9 0.036266
10 0.018133
T,8-/), 5.3. Poissonova distribucija broja
nezgoda u mjesecu za =5
S-/5, 5.4I Poissonova distribucija broja nezgoda u mjesecu za =5
6.5.5. K7*+/*>/(,*' 1->4,&*' ;,(/&,8-'I :>*5)/&, ./1+(/8>)/&' / :>*5)/&, 9>1+7@'
161
Ako broj vrijednosti neke sluajne varijable nije prebrojiv, onda je ona
kontinuirana sluajna varijabla. Ona moe poprimiti bilo koju vrijednost unutar intervala.
Razlika izmedu diskretne sluajne varijable i kontinuirane sluajne varijable temelji se na
razlikama u distribuciji kumulativnih frekvencija.
D':/*/)/&, 5.7I Dana je kontinuirana sluajna varijabla
, a K je neka toka na
brojevnom pravcu.
Funkcija kumulativne distribucije frekvencija F(x) za kontinuiranu sluajnu
varijablu
:
f(x) = F(x),
f(x) je prva derivacija funkcije distribucije F(x).
Funkcija gustoce za kontinuiranu sluajnu varijablu
0
@
#10)d0 )10)
Kumulativna povrsina ispod krivulje izmedu - i toke x@ jednaka je F(x1).
162
Funkcija gustoce kontinuirane sluajne varijable uvijek zadovoljava slijedeca dva uvjeta:
prvo,
0 f(x)
i drugo,
1
+
) F( x)dx f(
6.5.5.1. N>6'(/45, 1;7&1+;, 57*+/*>/(,*' 1->4,&*' ;,(/&,8-'
6.5.6. N7(6,-*, ./1+(/8>)/&, ;&'(7&,+*71+/
Moguce je provesti odredivanje i teorijskih apsolutnih frekvencija 't koje pripadaju
pojedinom razredu. Normalnu ili Gaussianovu funkciju gustoce predloio je $#%#Gauss
(1777-1855). To je bio model relativne distribucije frekvencije pogresaka tijekom mjerenja.
Ipak, njezine primjene su znatno sire. Gaussov zakon pogresaka, koji je u matematikoj
statistici poznat pod nazivom normalan razdioba, prihvacen je kao odgovarajuci model za
distribuciju relativnih frekvencija podataka prikupljenih u razliitim znanstvenim i drugim
podrujima.
Funkcija gustoce, srednja vrijednost i varijanca normalne sluajne varijable je:
2
2
2
) 0 1
e
2
1
) 0 1 #
, a njena funkcija
gustoce je f(x). Srednja vrijednost ili oekivana vrijednost varijable
je
@
#10)d0 4 0 ) <1
Ako je
) <1
. Varijanca od
je
? ) @ <>1
2 2
, a standardna devijacija od
je
2
.
Ako je = 0 i =1 onda je
2
) 0 1
2
e
2
1
) 0 1 #
" , gdje se odstupanja od
srednje vrijednosti izraavaju u jedinicama standardne devijacije (normiranje), onda se
ona naziva standardizirano obiljeje. Ono mjeri odstupanje stvarnih vrijednosti obiljeja od
srednje vrijednosti i to odstupanje izraava u standardnim devijacijama.
Poznate su slijedece jednakosti:
) 1 P
0.6826
) 2 1 P
0.9544
) 3 1 P
0.9973.
One se nazivaju i pravilima jedne dvije i tri standardne devijacije. Ako populacija ima
svojstva normalne distribucije onda je vjerojatnost da sluajno izabrana vrijednost obiljeja
bude u intervalu ( - , + ) jednaka 0.6826, u intervalu ( - 2, +2) vjerojatnost je
0.9544 i u intervalu ( - 3, + 3) vjerojatnost je 0.9973.
Normalna distribucija je kontinuirana distribucija, ali moe biti aproksimacija i za
diskretne distribucije kakva je binomna. Binomna distribucija je definirana s dva
parametra: brojem pokusaja n i vjerojatnosti uspjeha (. Normalna distribucija s
parametrima i ce biti dobra aproksimacija za binomnu distribuciju ako su
p) 1 1 np 2 2 np i p) np( np + + 1 2 2 izmedu B i n. Primjerice, binomna
distribucija s n=10 i p=0.5 je dobra aproksimacija normalne distribucije s
5 5 * 0 4 10 p 4 n
i 58 * 1 10 4 5 * 0 p) 1 np1 C
Binomnu distribuciju s n = 10 i p = 0.5 dobro aproksimira normalna distribucija na
slijedecoj slici:
164
Aproksimacija binomne distribucije (prikazane bar grafom) za
n=10, p=0.5 pomocu normalne distribucije prikazane krivuljom
6.6. DISTRI%$"IJE GRASPOREDIH $ZORAKA
6.6.1. Z,3+7 &' 8/+*, 6'+7., >?7(,5,
Cesto se u fazi prikupljanja podataka ne moe promatrati sve jedinice koje ine
populaciju, cijeli statistiki skup. Zato se na temelju podataka o dijelu populacije, uzorku,
nastoji spoznati cijela populacija. Potrebno je poznavati koliko je srednja vrijednost uzorka
blizu srednjoj vrijednosti populacije. Najbolje se ui na primjerima pa cemo na jednom od
njih objasniti i vanost metode uzoraka.
P(/6&'( 6.1: Drustvo za informatiku pismenost organiziralo je i provelo istraivanje
znanja aplikacijskih softvera razliitih dobnih skupina. Istraivanje se temelji na 4000
ispitanika koji su popunili anketne upitnike a dio rezultata prikazuje slijedeca tablica:
JM%G >2,*/&, IDQ6&'1+, D78 O8(,?7;,*&' %(7& ,2-/5,)/&15/A
17:+;'(,
1 1 8 26 2 1
2 1 8 33 3 1
3 1 8 27 2 3
4 1 8 46 1 2
5 1 8 22 2 0
6 1 8 28 2 1
7 1 8 33 2 3
8 1 8 38 1 3
9 1 8 34 2 2
..... ...... ........ ...... .......... ..........
3999 12 150 30 2 3
4000 12 150 23 2 0
165
Relativna frekvencija distribucije broja aplikativnih softvera cijele populacije
prikazana je u slijedecoj tablici:
%(7&
,2-/5,+/;*/A
2(79(,6, !('5;'*)/&,
K>6>-,+/;*,
M R'-,+/;*,
0 327 8,18% 8,18%
1 680 25,18% 17,00%
2 847 46,36% 21,18%
3 715 64,24% 17,88%
4 537 77,67% 13,43%
5 339 86,15% 8,48%
6 229 91,87% 5,73%
Vise 325 100,00% 8,13%
Na temelju tablice moe se dizajnirati dijagram distribucije apsolutnih i relativnih
frekvencija:
%istogra&
0
100
200
300
400
500
600
700
800
900
0 1 2 3 4 5 6 8ore
'roj a(likacijski) (rogra&a
F
r
e
k
v
e
n
c
i
j
a
a
,00,
20,00,
40,00,
60,00,
80,00,
100,00,
120,00,
2!'!lativne
9re/ven"ije
Iz populacije se mogu birati uzorci razliite veliine. Postavlja se pitanje, koliko ce
pokazatelji uzorka odstupati od parametara populacije i kako procijeniti parametre
populacije na temelju uzorka? Zato ce se birati dva sluajna uzorka veliine n=50.
Distribucija apsolutnih i relativnih frekvencija prvog uzorka je:
%(7&
,2-/5,+/;*/A
2(79(,6, !('5;'*)/&,
K>6>-,+/;*,
M R'-,+/;*,
0 4 8,00% 8,00%
1 9 26,00% 18,00%
2 13 52,00% 26,00%
3 13 78,00% 26,00%
4 6 90,00% 12,00%
5 0 90,00% 0,00%
6 3 96,00% 6,00%
166
Vise 2 100,00%
Histogram frekvencija prvog uzorka prikazuje slijedeca slika:
%istogra&
0
2
4
6
8
10
12
14
0 1 2 3 4 5 6 8ore
F
r
e
/
v
e
n
"
i
j
a
0,00,
20,00,
40,00,
60,00,
80,00,
100,00,
120,00,
Fre!en"#
&!'!lative ,
'roj a(likativni) (rogra&a
Drugi uzorak n=50 ima drugaiju distribuciju frekvencija znanja ispitanika o
aplikativnim softverima:
%(7&
,2-/5,+/;*/A
2(79(,6, !('5;'*)/&,
K>6>-,+/;*,
M R'-,+/;*,
0 4 8,00% 8,00%
1 12 34,00% 24,00%
2 7 48,00% 14,00%
3 12 72,00% 24,00%
4 4 80,00% 8,00%
5 5 90,00% 10,00%
6 2 94,00% 4,00%
Vise 3 100,00%
Odgovarajuci histogram distribucije frekvencija drugog uzorka dan je na slijedecoj
slici:
167
%istogra&
0
2
4
6
8
10
12
14
0 1 2 3 4 5 6 8ore
'roj a(likativni) (rogra&a
F
r
e
k
v
e
n
c
i
j
a
0,00,
20,00,
40,00,
60,00,
80,00,
100,00,
120,00,
Fre!en"#
&!'!lative ,
Aritmetika sredina prvog uzorka je 2,68 a drugog 2,86. Srednja vrijednost populacije je
3.08 sto pokazuje da drugi uzorak bolje aproksimira srednju vrijednost populacije.
6.6.2 S->4,&*/ >?7(,5
Naglasili smo da je osobiti bitno dobiti uzorak koji ima obiljeja populacije. Jedan
nain ispunjenja tog zahtjeva je osigurati da svaki uzorak veliine * ima jednaku
vjerojatnost izbora. Ta procedura se naziva sluajno uzorkovanje, a rezultata je sluajni
uzorak veliine *. Svaka jedinica populacije ima jednaku vjerojatnost izbora u uzorak,
jedinice se sluajno izabiru s pomocu tablice sluajnih brojeva ili generatorom sluajnih
brojeva.
P(/6&'(I Kupcu na raspolaganju stoji osam proizvoda: A, B, C, D, E, od kojih ce on izabrati
samo tri. Tri proizvoda ce biti jedan uzorak. Postavljaju se pitanja:
a) Koliko razliitih uzoraka s tri proizvoda kupac moe izabrati iz populacije od
osam proizvoda? Prikazati sve razliite uzorke.
b) Koji se kriterij treba zadovoljiti da bi uzorak bio sluajan?
R&'3'*&'I
a) Prvo ce se prikazati svi uzorci od tri proizvoda. Broj razliitih uzoraka za n
elemenata, iz populacije od N = 5 elemenata, je broj kombinacija trece klase od
pet elemenata i jednak je:
)B n & B41 n
B &
.
i varijancom
2
0
ako:
a) populacija ima normalnu distribuciju ili
b) populacija ima bilo koju distribuciju i uzorak je dovoljno velik (tzv. centralni granini
teorem). Uzorak je dovoljno velik ako je 30 n .
Uzorak bi trebao imati vise elemenata sto se distribucija populacije vise razlikuje
od normalne.
Varijanca sredine uzoraka je jednaka
n
2
2
0
ako je ispunjen barem jedan od tri
uvjeta:
a) da je populacija beskonana,
b) da se uzorkovanje vrsi s ponavljanjem, te
c) da je frakcija izbora manja od 5% .
Ako nije ispunjen ni jedan od tih uvjeta onda je varijancu sredine uzoraka potrebno
korigirati i u tom se sluaju izraunava po obrascu:
1 &
n &
4
n
2
2
0
.
Standardna pogreska je standardna devijacija neke statistike. Standardna
pogreska sredine uzoraka je
n
0
, odnosno
1 &
n &
4
n
0
.
Standardna pogreska je obrnuto proporcionalna veliini uzorka n i opada s kvadratom broja
elemenata uzorka.
P(/6&'( 6.6I Pokazati da empirijski podaci iz primjera 6.4 i 6.5 potvrduju centralni granini
teorem. Sluajni uzorci su veliine n=5, odnosno n=25. Za populaciju su poznate sredina i
standardna devijacija:
Sredina populacije:
08 * 3
aplikacijskih programa.
Standardna devijacija populacije: 186 * 2 aplikacijskih programa.
R&'3'*&'I Analizirajuci histograme moe se jasno uoiti da se vrijednosti aritmetikih
sredina uzoraka koncentriraju oko sredine populacije
08 * 3
. Ti primjeri pokazuju da se
standardna pogreska (standardna devijacija distribucije uzoraka) smanjuje ako se
povecava broj elemenata uzorka. Za n=5 standardna pogreska je = 0.971, a za n=25
standardna pogreska je 445 * 0 . Standardnu pogresku je moguce izraunati na temelju
poznavanja standardne devijacije populacije i veliine uzorka. Dakle, za uzorak veliine n=5
standardna pogreska je
977 * 0
5
186 * 2
n
0
. Za drugi uzorak, onaj veliine n=25
standardna pogreska je
437 * 0
25
186 * 2
n
0
Centralni granini teorem garantira priblino normalnu distribuciju sredine uzoraka
x , i onda ako populacija, iz koje se biraju uzorci, nema normalnu distribuciju. Distribucija
frekvencija broja aplikacijskih programa koje znaju ispitanici nije normalno distribuirana.
Ona je blago spljostena u lijevo, a to je vidljivo iz histograma.
6.7. PRO"JENE
174
6.7.1. $;7.
U ranijem dijelu ovog poglavlja istaknuto je da populacije imaju numerike
deskriptivne mjere ili parametre. Zakljuci o vrijednosti parametara se temelje na
statistikama izraunatim iz informacija o uzorku iz dane populacije. U ovom dijelu prikazat
ce se procjena sredine populacije, proporcija, varijanci i procijeniti razlike izmedu sredina
dvije populacije ili proporcija. Moci ce se procijeniti pouzdanost prognoze na temelju znanja
o distribucijama uzorka upotrijebljenih statistika.
P(/6&'( 7.1I Zeli se procijeniti prosjean broj aplikacijskih programa koje poznaje
ispitanik. Nama je vec poznata sredina populacije. Pitanje glasi: kako se moe procijeniti
parametar koji nas zanima
R&'3'*&'I Intuitivno je privlana procjena sredine populacije,
, sredina uzorka, x , a
ona se izraunava iz sluajnog uzorka veliine n uzetog iz populacije. Pretpostavimo da je
sluajno izabran uzorak broja aplikacijskih programa koje poznaje ispitanik veliine n= 40.
Prvo se izraunava sredina uzorka i ona je x =2.62 aplikacijskih programa. Ta vrijednost
x odreduje pojedinanu procjenu sredine populacije.
Koliko je ta procjena parametra populacije pouzdana? Zeli se utvrditi koliko je
procjena parametra populacije blizu stvarnoj vrijednosti parametra. To je moguce uraditi
samo ako se iskoriste obiljeja statistike distribucije uzoraka, sto ce biti prikazano u
slijedecim poglavljima.
6.7.2. P(7)&'*, 1('./*' 272>-,)/&'
Ako je uzorak dovoljno velik onda je distribucija sredina uzoraka x priblino
normalna. To pokazuje slika 7.1.
P(/6&'( 7.2I Pretpostavimo da se planira uzorak veliine n = 40 iz populacije o znanju
aplikacijskih programa i izraunava interval:
,
_
t t
n
x x
x
96 * 1 96 * 1
gdje je
s
vjerojatnosti 0.95. Udaljenost
x
1*96
od sredine uzorka je oznaena na obje
strane od sredine x . Sa slike je vidljivo da sredina populacije
se nalazi u
intervalu
x
1*96 t
.
orak
=
Kombinirajuci prvi i drugi korak moe se zakljuiti da ce, prije nego se bira
uzorak, vjerojatnost sredine populacije u intervalu x
x
1*96 t
biti priblino
0.95.
!/9>(' 7.2: Distribucija sredina uzoraka x
U nasem primjeru je n=40 a standardna devijacija populacije =2.186. Moe se zakljuiti
sa sigurnoscu od 95% da se sredina populacije nalazi u intervalu:
n
4 96 * 1 0 4 96 * 1 0
0
t t
.
Taj interval u kojem se nalazi sredina populacije moe se izraunati poznajuci sredinu
uzorka, standardnu devijaciju populacije i broj elemenata u uzorku:
678 , 0 62 * 2 346 * 0 4 96 * 1 62 * 2
40
186 * 2
4 96 * 1 62 * 2
n
4 96 * 1 0 t t t
t
.
Sredina populacije se nalazi u intervalu
678 * 0 62 * 2 678 * 0 62 * 2 +
s vjerojatnoscu
od 0.95.
Medutim, u mnogim praktinim primjerima nije poznata standardna devijacija
populacije. Za dovoljno velike uzorke n 30 standardna devijacija uzorka s je dobra
aproksimacija standardne devijacije populacije. Standardna devijacija uzorka n=40 je
1=1.957. Interval u kojem ce se naci sredina populacije na temelju sredine uzorka i
standardne devijacije je:
606 * 0 62 * 2
40
957 * 1
96 * 1 62 * 2
40
s
96 * 1 62 * 2 t
,
_
,
_
t
.
176
Moe se procijeniti s vjerojatnosti od 0.95 da se sredina populacije nalazi u intervalu
226 * 3 04 * 2
. Ako se eli povecati vjerojatnost da se sredina populacije nalazi u
nekom intervalu, potrebno je prosiriti taj interval. Tako, na primjer, za vjerojatnost od
99% interval povjerenja bi bio:
798 * 0 62 * 2
40
957 * 1
58 * 2 62 * 2
n
s
58 * 2 0
n
58 * 2 0 t
,
_
t
,
_
t
,
_
t
U praksi nece biti poznata sredina populacije, nego se izabire jedan uzorak i na
temelju pokazatelja uzorka ce se odrediti interval povjerenja da se parametar populacije
nalazi u tom intervalu.
Prvi korak u konstruiranju 95% intervala povjerenja je umanjiti povrsinu ispod
normalne krivulje za 0.05. Ta povrsina od 0.05 je jednako podijeljena na dvije strane
normalne distribucije tako da svaka strana ima povrsinu od 0.025.
Drugi korak je u tablici normalne distribucije oitati vrijednost za z i ona je 1.96.
Standardizirano obiljeje z je kljuno za konstruiranje intervala povjerenja.
!/9>(' 7.3. Standardizirano obiljeje z=1.96
Na slici je definirana
2 ;
z
, tj. vrijednost standardiziranog obiljeja tako da
povrsina za 2 ; se nalazi na desnoj strani. To je vidljivo na slijedecoj slici:
!/9>(' 7.4 Postavljanje
2 ;
z
za normalnu distribuciju
Vidljive su dvije povrsine smjestene na obje strane normalne krivulje, a one reprezentiraju
2 ;
z
i
2 ;
z
. Ostatak povrsine ispod normalne krivulje je
) 1 1
i jednak je koeficijentu
povjerenja. On predstavlja vjerojatnost da se sredina uzorka nalazi unutar intervala
2 ;
z
standardnih devijacija od sredine populacije
. Ta je vjerojatnost jednaka
) 1 1
. Za
velike uzorke interval povjerenja sredine populacije
, s koeficijentom povjerenja
) 1 1
, jednak je
0
2 ;
4 " 0 t
.
177
@ z
;2
0 z
;2
P(/6&'( 7.5: Veoma est koeficijent povjerenja u statistici je 0.9. Zadatak je odrediti
vrijednost
2 /
z
,
_
t t
n
z x z x
x
2 ; 2 ;
P(/6&'( 7.6I Bira se uzorak od n = 40 studenata i mjeri se njihova visina. Prosjena visina
studenata u uzorku i standardna devijacija su:
x = 71.5 kg s = 8.6 kg
Procijenit sredinu populacije
,
_
,
_
,
_
t
Moe se procijeniti s 99% sigurnosti da se sredina populacije nalazi u intervalu
(67.2, 75.02).
Ako su uzorci mali pojavljuju se dva problema:
a)centralni granini teorem se odnosi samo na velike uzorke i ne moe se tvrditi da
je distribucija sredina uzoraka normalna. Za male uzorke distribucija sredina
uzoraka ovisi o obliku relativne distribucije frekvencija populacije iz koje se bira
mali uzorak.
b) standardna devijacija uzorka 10 nije zadovoljavajuca aproksimacija standardne
devijacije populacije
,
_
t
n
s
t x
2 ;
, gdje
distribucija t je Studentova distribucija s (n-1) stupnjeva slobode.
Ako se ta procjena usporedi s procjenom sredine populacije za velike uzorke
vidljivo je da se standardne devijacija populacije , zamjenjuje standardnom devijacijom
uzorka 1. Interval povjerenja se temelji na Studentovoj t-distribuciji. Potrebno je zamijeniti
standardizirano obiljeje
2 ;
z
za velike uzorke s vrijednosti dobivenoj iz t-distribucije.
Studentova t-distribucija ovisi o veliini nazvanoj stupnjevi slobode ili degrees of
freedom (df). Broj stupnjeva slobode je jednak (n-1) ako se procjenjuje sredina populacije
pomocu uzorka veliine n. O stupnjevima slobode kao o broju informacija dostupnih za
procjenu, osim sredine populacije
, nepoznate varijance
2
.U slijedecoj tablici su
vrijednosti
t
koje odreduju povrsinu
i stupnjeve slobode:
T,8-/), 7.6
Studentova t-distribucija
d
f
t.100 t.050 t.025 t.010 t.005 t.001 t.0005
1 3.078 6.314 12.706 31.821 63.657 318.31 636.62
2 1.886 2.920 4.303 6.965 9.925 22.326 31.598
3 1.638 2.353 3.182 4.541 5.841 10.213 12.924
4 1.533 2.132 2.776 3.747 4.604 7.173 8.610
5 1.476 2.015 2.571 3.365 4.032 5.893 6.869
6 1.440 1.943 2.447 3.143 3.707 5.208 5.959
7 1.415 1.895 2.365 2.998 3.499 4.785 5.408
8 1.397 1.860 2.306 2.896 3.355 4.501 5.041
9 1.383 1.833 2.262 2.821 3.250 4.297 4.781
P(/6&'( 7.9: Na temelju podataka iz prethodne tablice odrediti t-vrijednost koja ce se
koristiti za 95% interval povjerenja za procjenu sredine populacije, ako je uzorak veliine
n=8.
R&'3'*&'I Za koeficijent povjerenja 0.95, vrijedi:
95 * 0 1
05 * 0
025 * 0 2 ;
Potrebno je odrediti vrijednost t0.025 za t-distribuciju s(n - 1) = (8 - 1) = 7 stupnjeva
slobode. Na presjeku retka (redak predstavlja stupnjeve slobode) i stupca oznaena s t.025,
oitava se vrijednost 2.365. Stoga je 95% interval povjerenja za sredinu populacije
, za
uzorak veliine n = 8 dan izrazom:
)
8
s
1 4 365 * 2 0 t
. Ukratko, ako sredina uzorka ima
normalnu distribuciju i ako je poznata standardna devijacija populacije onda je
179
,
_
t
n
s
t x
2 ;
interval povjerenja za sredinu populacije ija je razina povjerenja . Broj t
/2
se odreduje iz uvjeta P(
2
) % D 0 1 P
2 ;
i naziva se koeficijent povjerenja.
6.7.3. P(7)&'*, 2(727()/&' 272>-,)/&'
Cesto se populacija sastoji samo od dvije klase, a za takve populacije je potrebno
procijeniti proporciju da njezini elementi imaju odredena svojstva. Mnogobrojni su primjeri
takvih klasa: oenjeni i neoenjeni, pismeni i nepismeni, pusai i nepusai, ispravni i
neispravni proizvodi, muski i enski, itd.
Ako se populacija moe klasterirati (podijeliti) u dvije klase, a proporcija elemenata
populacije u jednoj klasi jednaka je (, onda smo sigurni da je proporcija u drugoj klasi 1-p.
Na uzorke izabrane iz dvoklasne populacije odnosi se binomna distribucija.
Nulta hipoteza H0 pretpostavlja da je vrijednost proporcije u populaciji p. Potrebno
je procijeniti jesu li proporcije (frekvencije) u uzorku dobivene iz populacije u kojoj su
proporcije jednake p.
P(/6&'( 7.10: Potrebno je procijeniti proporciju pusaa u nekoj populaciji na temelju
sluajno odabranog uzorka od 500 osoba. U tom uzorku je 200 pusaa.
R&'3'*&'I Prvi korak je izraunati proporciju pusaa u uzorku (proporciju elemenata uzorka
koji imaju traeno svojstvo). Ta proporcija uzorka je
pE
i izraunava se:
4 * 0
500
200
osoa roj !kupan
pu8aFu Broj
pE
Za procjenu prihvatljivosti proporcije
4 * 0 pE
potrebno je poznavati njezinu
distribuciju u uzorku. Ta se informacija moe dobiti primjenom centralnog graninog
teorema. Za velike uzorke distribucija uzoraka za
pE
je priblino normalna i ima slijedeca
svojstva:
Sredina je:
p
p
Standardna devijacija:
n
A 4 p
pE
, gdje je q = 1-p, a n broj elemenata u
uzorku.
Interval povjerenja za p moe se odrediti slino intervalu povjerenja za aritmetiku sredinu
populacije. Taj interval za velike uzorke je:
n
AE pE
" pE " pE
2 ; pE 2 ;
t t gdje je
pE
proporcija uzorka i
p q E 1 E
Za odredivanje intervala povjerenja potrebno je aproksimirati standardnu devijaciju
n
A 4 p
pE
tako sto ce se uporabiti proporcije uzorka
pE
i
qE
.
P(/6&'( 7.11. Za prethodni primjer odrediti interval povjerenja proporcije populacije ako
je koeficijent povjerenja 0.95.
R&'3'*&' Za faktor povjerenja 0.95 potrebno je odrediti . Imamo
95 * 0 1
, pa je
05 * 0
i 025 * 0
2
,
181
gdje su
2
1
i
2
2
varijance dvije populacije iz kojih se biraju sluajni uzorci. Veliki uzorci
omogucuju upotrebu centralnog graninoga teorema kako bi se dobila distribucija razlika
sredina uzoraka ) 1
2 1
x x , a varijance uzoraka
2
1
s i
2
2
s su dobre aproksimacije varijanci
populacija
2
1
i
2
2
. Algoritam odredivanja intervala povjerenja razlika sredina populacija
ako se biraju dovoljno veliki uzorci je:
2
2
2
1
2
1
2 ; 2 1
) 0 0 1
2 ; 2 1
n n
" ) 0 0 1 " ) 0 0 1
2 1
t t
2
2
2
1
2
1
2 ; 2 1
n
s
n
s
" ) 0 0 1 + t
Pretpostavka je da su uzorci medusobno neovisni, a to znai da izbor elemenata jednog
uzorka ne utjee na izbor elemenata drugog uzorka.
P(/6&'( 7.13I Na temelju ranijeg primjera 7.12. odrediti 95% interval povjerenja razlika
sredina dvije populacije ) (
2 1
. Te razlike se odnose na visine studenata dva fakulteta.
R&'3'*&'I Opci oblik 95% intervala povjerenja razlike sredina populacija ) 1
2 1
za
velike uzorke je
2
2
2
1
2
1
2 ; 2 1
) 1
n n
z x x
t
50
) 7 * 4 1
40
) 30 * 5 1
4 96 * 1 ) 82*2 @ 85*6 1
2 2
+ t
1 * 2 4 * 3 t
ili (1.3, 5.5). Rezultat se moe interpretirati da se moe biti 95% siguran da je prosjena
visina studenata prvog fakulteta veca od prosjeka studenata drugog fakulteta izmedu 1.3 i
5.5 cm.
Ako se procjenjuje razlika sredina dvije populacije na temelju malih uzoraka
potrebno je prihvatiti slijedece pretpostavke:
a) Obje populacije iz kojih se biraju uzorci imaju frekvenciju distribucija
koja je priblino normalna.
b) Varijance obje populacije su priblino jednake.
c) Sluajni uzorci izabrani iz obje populacije su neovisni.
Na temelju tih pretpostavki moguce je odrediti interval povjerenja za razliku
sredina dvije populacije ) (
2 1
iz malih uzoraka (n1 i n2 < 30).
I*+'(;,- 27;&'('*&, C@ 4 DF100M 6,-/A >?7(,5, ?, ) (
2 1
,
_
+ t
2 1
2
p 2 ; 2 1
n
1
n
1
4 s 4 % ) 0 0 1
gdje je
2 n n
s ) 1 n 1 s ) 1 n 1
s
2 1
2
2 2
2
1 1 2
p
+
+
a vrijednost za
2 ;
%
.
6.7.5. P(7)&'*, ;,(/&,*)' 272>-,)/&'
Moguce je procjenjivati interval povjerenja za varijancu populacije. Logino je
pretpostaviti da se varijanca populacije
2
procjenjuje na temelju varijance uzorka s
E
.
182
Medutim varijanca uzorka se ne ponasa kao sredina ili proporcija uzorka po normalnoj
distribuciji. Umjesto normalne z ili t distribucije, varijanca uzorka ima priblino hi-kvadrat
(
2
) distribuciju. Slino, t-distribuciji i hi-kvadrat distribucija se slui stupnjevima slobode.
Nekoliko hi-kvadrat distribucija vjerojatnosti s razliitim stupnjevima slobode prikazuje
slijedeca slika:
Slika G#@@ Hi-kvadrat distribucija vjerojatnosti
Hi-kvadrat distribucija nije simetrina kao sto su to z- ili Studentova t-distribucija.
P(/6&'( 7.18I Dio tablice vrijednosti
2
distribucije ima slijedeci izgled:
Stu(njevi
slobode
2
.050
2
.025
2
.010
2
.005
1 2.70554 3.84146 5.02389 6.63490 7.87944
2 4.60517 5.99147 7.37776 9.21034 10.59660
3 6.25139 7.81473 9.34840 11.34490 12.83810
4 7.77944 9.48773 11.14330 13.27670 14.86020
5 9.23635 11.07050 12.83250 15.08630 16.74960
6 10.64460 12.59160 14.44940 16.81190 18.54760
7 12.01700 14.06710 16.01280 18.47530 20.27770
8 13.36160 15.50730 17.53460 20.09020 21.95500
9 14.68370 16.91900 19.02280 21.66600 23.58930
10 15.98710 18.30700 20.48310 23.20930 25.18820
11 17.27500 19.67510 21.92000 24.72500 26.75690
12 18.54940 21.02610 23.33670 26.21700 28.29950
13 19.81190 22.36210 24.73560 27.68830 29.81940
14 21.06420 23.68480 26.11900 29.14130 31.31930
15 22.30720 24.99580 27.48840 30.57790 32.80130
16 23.54180 26.29620 28.84540 31.99990 34.26720
17 24.76900 27.58710 30.19100 33.40870 35.71850
18 25.98940 28.86930 31.52640 34.80530 37.15640
19 27.20360 30.14350 32.85230 36.19080 38.58220
Zadatak je odrediti tablinu vrijednost za
2
za devet stupnjeva slobode koja
odsijeca povrsinu od 0.05 u desnoj strani distribucije. U tom zadatku je broj stupnjeva
slobode df=9 i = 0.05. Tablina vrijednost
2
za 9 stupnjeva slobode je
2
0.05 = 16.9190.
183
T,8'-, 7.9
2
distribucija
Vrijednosti
2
u tablici slue za odredivanje intervala povjerenja za varijancu populacije
2
.
P(/6&'( 7.19I Istraivana je zagadenost ribe u jednoj rijeci. Zeli se utvrditi koliko je
stabilna teina kontaminirane ribe. Bira se uzorak s 144 elementa i na temelju njega se
izraunava statistika
-ra/a* 376*6 s -ra/a, 7 * 049 , 1 0
Upotrijebiti te informacije i
odrediti 95% interval povjerenja za varijaciju teina kontaminirane ribe u rijeci.
R&'3'*&': Interval povjerenja (1 - )*100% varijance
2
populacije ovisi o veliini s
2
,
(n - 1), i kritinoj vrijednosti
2
:
) 2 ; 1 1
2
2
2
2 ;
2
2
) 1 1 ) 1 1
s n s n
, gdje su
2
2 ; 1
i
2
2 ;
vrijednosti od
2
koje odreduju
povrsinu /2 desno i /2 lijevo hi-kvadrat distribucije za (n-1) stupnjeva slobode.
Pretpostavka je da populacija iz koje se bira uzorak ima priblino normalnu distribuciju. Za
95% interval povjerenja je (1 - ) =0 .95 i /2 = 0.05/2 = 0.025. Zato se trebaju pronaci
vrijednosti u tablici za
2
0.025, and
2
0..975 i (n - 1) = 143 stupnja slobode. Najblia za 143
stupnja slobode u tablici je df=150. Oitamo odgovarajuce vrijednosti:
2
0.025 = 185.800 i
2
0.975 = 117.985. Te vrijednosti unosimo u formulu:
985 * 117
) 6 * 376 )1 1 144 1
800 * 185
) 6 * 376 )1 1 144 1
2
2
2
.
Sigurni smo 95% da je prava varijanca populacije teina kontaminirane ribe u rijeci izmedu
109,156.8 i 171,898.4.
S-/5, 7.11 Odredivanje
2
1-/2 i
2
/2 za hi-kvadrat distribuciju
184
U ovom poglavlju su prikazane tehnike procjene parametara populacije ili razlike
izmedu parametara populacije. Dane su sve potrebne pretpostavke i odredivanje intervala
povjerenja.
6.8. TESTIRANJE #IPOTEZA
6.8.1 $;7.
Testiranje hipoteza je drugo veoma vano podruje inferencijalne statistike.
Razlikuje se od procjenjivanja jer se unaprijed formira ideja o izgledu populacije, a zatim
provjerava na temelju uzorka ta ideja. U procjeni se nastoji odgovoriti na pitanje koliki je
parametar populacije dok testiranje hipoteza nastoji odgovoriti na pitanje je li parametar
populacije jednak nekoj pretpostavljenoj vrijednosti ili nije.
Hipotezu H0 cemo prihvatiti ili odbaciti na temelju rezultata mjerenja. Hipoteza se
odnosi na populaciju. Rezultati mjerenja se temelje na uzorku. Postupak provjere hipoteze
se naziva testiranje hipoteze.
Postoje razliite vrste hipoteza
44
. Testiranje hipoteza je jos jedna metoda
zakljuivanja. U procjenjivanju parametara populacije pretpostavlja se da vrijednosti
obiljeja imaju svojstva neke teorijske distribucije I onda se na temelju izraunate statistike
(pokazatelja uzorka) s odredenim stupnjem pouzdanosti zakljuuje o populaciji. Testiranje
hipoteza pretpostavlja da su dani parametri populacije. Cesto je korisno znati jesu li
karakteristike populacije jednake ili razliite od neke pretpostavljene vrijednosti.
Provjera istinitosti hipoteza H0 je dio teorije odluivanja. Teorija odluivanja nastoji
definirati kriterije za prihvacanje hipoteze H0 kao istinite, ili o kriterije za njeno odbacivanje.
Takva odluka se najesce donosi na temelju statistikih podataka i postupak utvrdivanja
istinitosti hipoteza se naziva statistiko testiranje hipoteza. Prije testiranja potrebno je
formulirati hipotezu.
6.8.2 !7(6>-/(,*&' A/27+'?,
U danom primjeru broja aplikacijskih softvera s kojima se slue ispitanici u nekoj
regiji moe se postaviti hipoteza da se stariji od 50 godina slue s manjim brojem softvera
od onih koji su mladi od trideset godina. Prvo se formulira tvrdnja ili hipoteza za koju se
vjeruje da je istinita. Statistika hipoteza je tvrdnja o vrijednosti parametra populacije. Ako
se hipoteze odnose na parametre populacije onda su to parametarske hipoteze. Postupak
testiranja takvih hipoteza je parametarski test. Postoje i neparametarska hipoteza i
neparametarski testovi. Oni se odnose na cijelu populaciju.
Postoje dvije vrste hipoteza - alternativna i nulta. Hipoteza da se znanja broja
aplikacijskih softvera razlikuju s obzirom na starosnu dob je alternativna hipoteza. Njoj
suprotna je nulta hipoteza. Obje nikada ne mogu biti istinite jer predstavljaju dva razliita
stanja u kojima se promatrane pojave ne mogu naci istodobno.
Nulta (ili nul) hipoteza je hipoteza o nepostojanju razlika npr. nepostojanje razlika
u znanju aplikacijskih softvera s obzirom na dob ispitanika. To je i smisao pojma nulta
hipoteza. Nulta znai da nema razlika.
P(/6&'( 8.1I Formulirati odgovarajucu nultu i alternativnu hipotezu da prosjean broj
djece ene radaju manje u urbanim nego ruralnim zajednicama.
R&'3'*&'I Hipoteza se mora predstaviti u obliku parametara populacije. Pretpostavka je da
je:
1 = prosjean broj djece koje radaju ene u gradskim naseljima
2 = prosjean broj djece koje radaju ene u ruralnim naseljima.
44
O tome detaljnije vidjeti poglavlje 3.3. ovog udbenika. Dakako, podjela se moe vrsiti i po drugim
kriterijima. Iz pozicije statistike obrade podataka, primjerice, ako se hipoteze odnose na neke
parametre populacije, nazivaju se parametarske, a ako se odnose na cijelu populaciju, nazivaju se
neparametarske. Jednostavne hipoteze se odnose samo na jednu vrijednost parametra ili na jednu
distribuciju itd.
185
Demografi ele podrati tvrdnju da je 1 manje od 2.
Nulta i alternativna hipoteza su:
H0: (1 - 2) = 0. Iz toga slijedi da je 1 = 2, a to znai da nema razlike u broju
rodene djece u urbanim i ruralnim naseljima.
Ha: (1 - 2) < 0. Iz toga slijedi da je 1 < 2, a to znai da je broj rodene djece u
urbanim naseljima manji od broja djece u ruralnim naseljima.
6.8.3 T/27;/ 279('3,5, > +'1+/(,*&> A/27+'?,
Cilj svakog testiranja hipoteza je donijeti odluku, a to znai odbaciti nultu hipotezu
i prihvatiti alternativnu ili obrnuto. Naravno, cilj je uvijek donijeti ispravnu odluku, ali se
zakljuivanje temelji na uzorku pa su moguce dvije vrste pogresaka:
D':/*/)/&, 8.1I Pogreska prve vrste znai odbacivanje nulte hipoteze kada je ona
tona. Vjerojatnost da se napravi ta pogreska se obino oznaava s .
D':/*/)/&, 8.2I Pogreska druge vrste znai prihvacanje nulte hipoteze kada je ona
netona. Vjerojatnost da se napravi ta pogreska se obino oznaava s .
Nulta hipoteza moe biti ili istinita ili pogresna, a mi cemo odluiti o njenom
prihvacanju ili odbijanju. Cetiri su moguce situacije koje mogu nastupiti u testiranju
hipoteza, a opisuje ih slijedeca tablica:
Z,5-&>4)/
Tona H0 ne prihvaamo H0 prihvaamo
H0 tona (pogreka prve
vrste)
1-
H0 nije tona 1- (pogreka
druge vrste)
T,8-/), 8.1. Zakljuci i pogreske u testiranju hipoteza
Iz tablice je vidljivo da se istodobno ne mogu uiniti pogreske prvog i drugog tipa.
Cilj je uvijek smanjiti i odravati vjerojatnosti da se uine pogreske prvog i drugog tipa.
Jedini nain smanjenja vjerojatnosti pogreske je povecati informacije, a to znai jedino
povecati veliinu uzorka.
Vjerojatnost da se uini pogreska prve vrste je i ona je mjera pouzdanosti
zakljuak. Ta se veliina naziva i razina signifikantnosti testiranja hipoteze. Postavlja se
pitanje kako onda donositi zakljuke u testiranju hipoteza? Koji su koraci u testiranju
hipoteza?
Izabrati sluajni uzorak iz populacije.
Odrediti test veliinu
Odabrati razinu znaajnosti i odrediti podruje odbacivanja prema nultoj hipotezi
Koristiti podatke iz uzorka i izraunati test veliine
Zakljuiti jesu li izraunate vrijednosti test statistike unutar podruja odbacivanja.
Ako se nalaze u tom podruju, onda odbaciti nula hipoteze, a ako se ne nalaze onda
prihvatiti nula hipotezu. Ukratko, posljednji korak je donijeti zakljuak "odbacuje li
se ili "ne odbacuje nul-hipotezu.
P(/6&'( 8I Potrebno je testirati hipotezu o sredini populacije.Ispunjeni su uvjeti da su
sredine uzoraka normalno distribuirane i poznata je varijanca populacije o
2
.
Zelimo testirati hipoteze
H0: = 102 (nulta hipoteza: sredina populacije je 102)
Ha: > 102 (alternativna hipoteza: sredina populacije je veca od 102)
186
R&'3'*&'I Prvi korak je odabrati sluajan uzorak iz populacije. Informacije iz uzorka su u
obliku statistike i pomoci ce u prihvacanju ili odbacivanju nulte hipoteze. Statistika na kojoj
temeljimo odluke se naziva +'1+ 1+,+/1+/5,.
Drugi korak je odrediti test statistiku koja je bitna za odluku koju elimo donijeti. U nasem
primjeru je to hipoteza o sredini populacije . Buduci je najbolja tvrdnja da za sredinu
populacije treba uzeti sredinu uzorka x , pa je sredina uzorka x traena test statistika.
Trei korak je odrediti raspon mogucih vrijednosti za test statistiku za koje ce nulte
hipoteza biti odbaena i prihvacena alternativna hipoteza. Te vrijednosti se nazivaju
podrujem odbacivanja testa.U ovom primjeru, potrebno je odrediti vrijednosti sredine
uzorka x za koje moemo povjerovati da je alternativna hipoteza Ha tona. To znai da je
sredina populacije veca od 102.
Nakon sto se odrediti podruje odbacivanja nula hipoteze, etvrti korak je koristiti podatke
iz uzorka da bi se izraunale vrijednosti test statistike.
Na koncu se donosi odluka o tome nalaze li se izraunate vrijednosti unutar podruja
odbacivanja nula hipoteze. Ako se ne nalaze onda se prihvaca nula hipoteza.
Nula hipoteza u nasem primjeru tvrdi da je sredina populacije jednaka 102. Potrebno je
odrediti udaljenost sredine uzorka
x
od vrijednosti 102. Zato se sluimo
standardiziranom z-vrijednosti koja standardizira vrijednosti test statistike
x
:
n ; s
102 0
n ;
102 0 0
"
0
0
Standardizirana varijabla nam daje informaciju koliko standardnih devijacija sredina uzorka
je udaljena od vrijednosti za koju je nulta hipoteza H0 tona (u nasem primjeru ta je
vrijednost 102).
Slika 8.1A jasno prikazuje da je vjerojatnost za sredinu uzorka da bude vise od 1.645
standardnih devijacija veca od 102 samo 0.05. Pretpostavka je da je uzorak dovoljno velik
pa je distribucija sredina uzoraka priblino normalna distribucija. =0.05
187
S-/5, 8.1. Odredivanje podruja odbacivanja nulte hipoteze
Podruje odbacivanja nulte hipoteze je za vrijednosti z su vece od 1.645. To su vrijednosti
sredine uzorka koje su vise od 1.645 standardnih devijacija vece od 102. Vrijednost na
granici podruja odbacivanja hipoteze se naziva kritina vrijednost. Kritina vrijednost
1.645 je prikazana na slici 8.1.B. U tom primjeru vjerojatnost =0.05 je vjerojatnost da ce
se uiniti pogreska prve vrste, tj. odbaciti tona nula hipoteza. Ako se eli testirati hipoteza
za koju ce se odbaciti nulte hipoteza za dovoljno velike i dovoljno male vrijednosti
standardizirane test statistike, onda se radi o dvostranoj alternativi. Sa slike 8.2.A, moe
se zakljuiti da je sansa da sredina uzorka bude 1.96 standardnih devijacija manja ili veca
od 102 je samo 0.05. Podruje odbacivanja nula hipoteze se sastoji iz dva skupa
vrijednosti: odbacit ce se nula hipoteza ako je z ili manje od -1.96 ili veci od 1.96
standardnih devijacija.
188
S-/5, 8.2. Odredivanje podruja odbacivanja nul hipoteze
1* Podruje odbacivanja ovisi o tome je li test jednostran ili dvostran za ranije utvrdenu
razinu signifikantnosti .
a* Za jednostrani test u kojoj se pojavljuje simbol ">" za H0, podruje odbacivanja se
nalazi u gornjem dijelu distribucije uzoraka za standardiziranu test statistiku. Kritina
vrijednost se bira tako da je vrijednost desno od nje jednaka .
* Za jednostrani test u kojoj se pojavljuje simbol "<" Ha, podruje odbacivanja se
nalazi u donjem dijelu distribucije uzoraka za standardiziranu test statistiku. Kritina
vrijednost se bira tako da je vrijednost lijevo od nje jednaka .
c* Za dvostrani u kojoj se pojavljuje simbol "" za Ha, podruje odbacivanja se sastoji iz
dva skupa vrijednosti. Kritina vrijednost se bira tako da podruje u svakom dijelu
distribucije uzoraka za standardiziranu test statistiku jednako /2.
P(/6&'( 8.12I U prethodnom primjeru su izraunate slijedece statistike iz sluajno
izabranog uzorka n = 40 a x = 104, s = 15. Testirati hipoteze
H0: = 102
Ha: > 102
Na razini signifikantnosti = 0.05.
Nulta hipoteza ce se odbaciti ako je standardizirano obiljeje z vece od 1.645 standardnih
devijacija od 102 tj. pretpostavljene vrijednosti sredine populacije. Kratko zapisano:
Odbaciti H0 ako je z > 1.645.
Standardizirano obiljeje z je jednako:
84 * 0
40 ; 15
102 104
n ; s
102 0
n ;
102 0 0
"
0
0
Posto vrijednost z=0.84 se ne nalazi unutar podruja odbacivanja nulte hipoteze, nulta
hipoteza se ne moe odbaciti. Ne moemo zakljuiti ni da je nulta hipoteza tona tj. da je
sredina populacije jednaka 102 ili =102. Mi smo utvrdili da se nulta hipoteza ne moe
odbaciti i nema dovoljno elementa da se alternativna hipoteza Ha:>102 moe prihvatiti.
Cilj je bio objasniti logiku i koncept u statistikoj proceduri testiranja hipoteza. Te tehnike
se mogu detaljnije prikazati ali to je izvan ciljeva rada.
6.9. PRIMJENA TESTIRANJA #IPOTEZE
6.9.1 $;7.
189
U ovom poglavlju ce se prikazati aplikacije testiranja hipoteza. Ta testiranja ce se temeljiti
na znanjima iz sedmog poglavlja, a uporabit ce se razlika sredina dvije populacije (1 - 2),
proporcija populacije p i razlika proporcija dvije populacije (p1
p2).
Koncepti testiranja hipoteza su jednaki za sve te parametre. Potrebno je prvo definirati nula
i alternativnu hipotezu, zatim izraunati statistike uzorka i na koncu odrediti podruje
odbacivanja hipoteza. Ta statistika procedura identina je za testiranje svih parametara
populacije. Sva testiranja imaju jednak oblik. Nain izraunavanja test statistika ovisi od
promatranih parametara. Na temelju dosadasnjih izlaganja (poglavlje 7) je jasno da za
dovoljno velike uzorke hipoteza o sredini populacije je dana sa:
n s
x
z
;
0
Kljuno je za proceduru testiranja hipoteza odrediti parametre populacije.
Odredivanje parametra populacije
P A R A M E T A
R
Opis
Srednja vrijednost populacije.
(1 2) Razlika sredina populacija.
p Proporcija; postotak; frakcija; stopa.
(p1 p2) Razlika proporcija, postotak; frakcija.
2
Varijanca.
2
2
2
1
Odnos varijanci.
U slijedecem dijelu prikazat ce se primjer testiranja hipoteza za navedene parametre.
6.9.2 #/27+'?, 7 1('./*/ 272>-,)/&'
Pretpostavimo da u protekloj godini studenti sveuilista daju informaciju o broju sati koje
potrose na uenje tijekom tjedna. Prosjean broj sati je bio 40 u tjednu. Tekuce godine se
eli odrediti je li prosjeno vrijeme uenja u tjednu vece od 40 sati. To znai testirat ce se
H0: = 40 ; nulta hipoteza da je prosjeno vrijeme jednako 40 sati.
Ha: > 40 ; alternativna hipoteza da je prosjeno vrijeme vece od 40 sati.
= prosjeno vrijeme uenja svih studenata u tjednu.
Istraivanje ima cilj dati potporu alternativnoj hipotezi Ha. Nadamo se da ce podaci iz
uzorka potvrditi alternativnu a odbaciti nultu hipotezu H0. Sada se izraunava srednja
vrijednost za uzorak x I ona ce posluiti za procjenu srednje vrijednosti populacije.
Postavlja se pitanje je li vrijednost x dovoljno velika da se moe zakljuiti da je
aritmetika sredina populacije veca od 40? Odgovor na to pitanje je moguce dobiti, ali se
prethodno moraju izvrsiti svi koraci algoritma za testiranje hipoteza razvijen u poglavlju 8.
6.9.2.1. T'1+/(,*&' 1('./*' 272>-,)/&' >27(,876 ;'-/5/A >?7(,5,
Slijedi algoritamski prikaz koraka testiranja hipoteze o sredini populacije, . Jedina
pretpostavka primjene algoritma je da je broj jedinica u uzorku n30, tj. uzorak je dovoljno
velik.
Hipoteza o sredini populacije za velike uzorke n 30
190
Jednostrani test
H0: = 0
Ha: > 0 (ili Ha: < 0)
Dvostrani test
H0: = 0
Ha: 0
Test statistika:
n s
x x
z
x
;
0 0
Podruje odbacivanja:
z > z
ili z < - z
.
Podruje odbacivanja:
z < -z
/2 ili z > z
/2.
gdje je z
) = ; i z
/2 je z-vrijednost takva da
je P(z > z
/2) = /2. [Primijetimo: 0 je oznaka za odredenu numeriku
vrijednost odredenu za u nula hipotezi.]
Pretpostavka: Veliina uzorka mora biti dovoljno velika (tj. n 30) tako da je
distribucija sredina uzoraka priblino normalna a s daje dobru aproksimaciju za
.
P(/6&'( 9.1I Prosjeno vrijeme koje student potrosi na uenje tijekom tjedna na
sveuilistu je bilo 40 sati tjedno. Uzet je uzorak od 35 studenata u akademskoj godini koja
je u tijeku. Izraunata je slijedeca statistika:
sa%i 85 * 13 s G sa%i 1 * 42 0
Testirati hipotezu da , prosjeno vrijeme uenja u tjednu je jednako 40 sati nasuprot
alternativnoj hipotezi da je vece od 40sati. Nivo povjerenja = .05.
R&'3'*&'I Ranije su formulirane nulta i alternativna hipoteza:
H0: = 40
Ha: > 40
Veliina uzorka n = 35 je dovoljno velika tako da je distribucija sredina uzoraka x
priblino normalna i s daje zadovoljavajucu aproksimaciju za . Posto su ispunjene
zahtijevane pretpostavke moe se poeti s testiranjem hipoteze o srednjoj vrijednosti
populacije .
Uporabom signifikantnosti od = .05, odbacit ce se nula hipoteza za test na jednom kraju
ako z > z
/2 = z.05, tj. ako je z > 1.645. Podruje odbacivanja je prikazano na slici 9.1.
S-/5, 9.1: Podruje odbacivanja za primjer 9.1
Izraunati vrijednost test statistike, dobiva se:
897 *
35 ; 85 * 13
40 1 * 42
;
0
n s
x
z
Posto vrijednost z=0.897 ne pada unutar intervala odbijanja, ne odbija se nula H0. Kae se
da nema dovoljno dokaza (za = .05) za zakljuak da prosjeno vrijeme uenja studente
je vece od 40 sati tjedno.
P(/6&'( 9.2I Tvornica secera pakira secer u vrecice prosjene teine 1 kg. Ipak se svaka
vrecica ne puni s tono jednim kilogramom. Ta teina je nekada manja a nekada veca od
191
kilograma. Kompanija eli na vrijeme biti upozorena u promjeni prosjene teine vrecice od
kilograma i ponovno resetirati stroj. Zato se periodino odabire 50 vreca secera, vau se i
izraunava prosjena teina i standardna devijacija. Podaci za takav uzorak su:
k- 05 * 0 s k- 03 * 1 0
Testirati je li sredina vrecice (populacije) razliita od kilograma na razini signifikantnosti
= 0.01.
R&'3'*&'I Formuliramo slijedecu hipoteze:
H0: = 1
Ha: 1
Veliina uzorka n=50 je iznad 30, moe se nastaviti s testom za velike uzorke o sredini
populacije. Posto su bitne promjene o oba smjera to potrebno testirati na oba kraja.
Za razinu signifikantnosti = 0.01, odbacit ce se nula hipoteza za test na oba kraja ako:
z < - z
/2 = - z0.005 or z > z
/2 = z0.005
vrijednost za z < - 2.576 ili z > 2.576.
Vrijednost test statistike je:
243 * 4
50 ; 05 *
1 03 * 1
;
0
n s
x
z
Ta vrijednost je veca od najvece kritine vrijednosti za z=2.576. Odbacuje se nula hipoteza
i prihvaca alternativna na razini signifikantnosti od 1%. Moemo sa sigurnoscu 99% tvrditi
da se teina vrecice razlikuje od kilograma.
6.9.2.2. T'1+/(,*&' 1('./*' 272>-,)/&' >27(,876 6,-/A >?7(,5,
Testiranje hipoteza temeljeno na malom uzorku (n < 30) o sredini populacije, , moe se
prikazati kao niz koraka koji ako se slijede dovode to rjesenja. Takav niz koraka,
takva procedura je prikazana u slijedecoj tablici:
Hipoteza o sredini populacije temeljena na malom uzorku n < 30
Jednostrani test
H0: = 0
Ha: > 0 (ili Ha: < 0)
Dvostrani test
H0: = 0
Ha: 0
Test statistika:
n s
x
t
;
0
Podruje odbacivanja:
t > t
ili t < - t
.
Podruje odbacivanja:
t < -t
/2 ili t > t
/2.
gdje je distribucije od t temeljena na (n - 1) stupnjeva slobode. Vrijednost
studentove distribucije t
) = ; i t
/2 je t-vrijednost takva
da je P(t > t
/2) = /2.
Pretpostavka: Relativna distribucija frekvencija populacije iz koje se bira uzorak
je priblino normalna.
Zakljuivanje na temelju malog uzoraka je restriktivnije nego na temelju velikog uzorka.
Testiranje hipoteza pomocu malog uzorka pretpostavlja da populacija iz koje se bira uzorak
je priblino normalna distribucija. Test statistika je t statistika i izraunava se slino testu
statistici za velike uzorke. Kao i za standardizirano obiljeje z, izraunata vrijednost
statistike t aproksimira udaljenost sredine uzorka x od pretpostavljene sredine populacije
0.
P(/6&'( 9.4: U nekoj tvornici se pakira proizvod X u vrecice od 1 kg. To znai da je
oekivana teina u vrecici 1000 grama. Uzima se uzorak od 16 pakiranja i on pokazuje
prosjenu teinu od 998 grama. Standardna devijacija uzorka je 35 grama. Testirati
hipotezu da je prosjena teina vrecice 1000 grama tona na razini signifikantnosti od =
0.05.
192
R&'3'*&'I Zadatka je testirati hipotezu da se oekivana vrijednost vrecice nije promijenila.
Zato cemo uporabiti dvostrani test:
H0: = 1000
Ha: 1000
Pretpostavlja se da je relativna distribucija frekvencija populacije iz koje se bira uzorak
priblino normalna jer se radi o malom uzorku.Na temelju danih pretpostavki potrebno je
odrediti t vrijednost za n-1=16-1=15 stupnjeva slobode. Nultu hipotezu treba odbaciti za
vrijednosti t: t < - t
/2 ili t > t
/2 s /2 = 0.05/2 = 0.025. Iz tablice t vrijednosti za 15
stupnjeva slobode i /2=0.025 pronalazimo vrijednost t0.025 = 2.13.
vrijednost test statistike je:
229 * 0
16 ; 35
1000 998
n ; s
0
%
0
Podruje odbacivanja:
z > z
ili z < - z
gdje je q0 = 1 - p0
Podruje odbacivanja:
z > z
/2 ili z < -z
/2
gdje je q0 = 1 - p0
Pretpostavka: interval
n
AE 4 pE
4 2 pE t ne smije sadravati 0 i 1.
P(/6&'( 9.5I Pretpostavimo da se u glasovanju za neku politiku opciju A opredjeljuje 12%
glasaa. Predlae se pratiti promjene u proporciji onih koji se opredjeljuju za tu politiku
opciju tj. ispitati povecava li se udjel glasaa koji preferiraju opciju A. Zato se bira sluajan
uzorak od 200 glasaa. U uzorku od 200 glasaa njih 25 je za politiku opciju A. Postavlja
se pitanje moe li se zakljuiti da je stvarna proporcija glasaa za politiku opciju A
znaajno veca od 12%, za razinu signifikantnosti =0.05.
R&'3'*&' Prvo ce se postaviti nulta i alternativna hipoteza o proporciji populacije, p:
H0: p =0.12 ; nema promjena u proporciji glasaa za opciju A.
Ha: p > 0.12; udjel glasaa za opciju A je povecan.
gdje je p stvarni udio glasaa za opciju A.
193
Na razini signifikantnosti = .05, podruje odbacivanja jednostranog testa sastoji se u
odredivanju svih vrijednosti standardizirane varijable z za koju je
z > z0.05 = 1.645
Potrebno je prvo izraunati proporciju glasaa u uzorku
pE
za opciju A:
125 * 0
200
25
pE
Proporcija glasaa koji se ne opredjeljuju za opciju A je q0 = 1 - p0 = 1 -0 .12 =0 .88. Ako
se te vrijednosti unesu u test statistiku dobit ce se slijedeca vrijednost standardiziranog
obiljeja z:
17 * 2
023 * 0
05 * 0
200
88 * 0 4 12 * 0
12 * 0 125 * 0
n
A 4 p
p pE
"
0 0
0
za prvu populaciju i 2 i
2
2
194
Podruje odbacivanja:
z > z
ili z < - z
)
Podruje odbacivanja:
z < -z
/2 ili z > z
/2
Ako nema razlika u sredinama populacije onda je R0 =(1 - 2) =0.
Pretpostavke:
Oba uzorka su dovoljno velika: n1 30 i n2 30.
Uzorci su neovisni i biraju se sluajno.
P(/6&'( 9.6I Ispitivane su promjene u prosjenoj visini studenata na fakultetu za tjelesni
odgoj. Na temelju podataka o visini studenata u 1995 i 2005 moe li se tvrditi da nisu
nastupile promjene u prosjenoj visini studenata?
Rezultati istraivanja su prikazani u tablici 9.1. Razina pouzdanosti je = 0.01.
1995 2005
n1 = 164
3 * 182 0
1
cm
s1 = 5.2
n2= 275
5 * 179 0
2
s2 = 4.5cm
T,8-/), 9.1. Prosjena visina studenata
R&'3'*&'I Neka su prosjene visine studenata za 1995. godinu 3 * 182 0
1
cm, a za 2005.
5 * 179 0
2
cm. Potrebno je testirati hipotezu:
H0: (1 - 2) = 0; nema promjena u visini studenata.
Ha: (1 - 2) > 0; prosjena visina studenata se smanjila.
1 = prosjena visina svih studenata na fakultetu za tjelesni odgoj 1995 godine.
2 = prosjena visina svih studenata na fakultetu za tjelesni odgoj 1995 godine.
Taj jednostrani test se temelji na z statistici. Odbacit ce se nulta hipoteza ako je
z > z
Podruje odbacivanja:
z > z
ili z < - z
Podruje odbacivanja:
z < -z
/2 ili z > z
/2
gdje je
2
2 2
1
1 1
) E E 1
2 1
n
q p
n
q p
p p
+
.
Ako je R00 izraunati
2
2 2
1
1 1
) pE pE 1
n
AE pE
n
AE pE
2 1
+
.
Ako je R0=0 izraunati
,
_
+
2 1
) pE pE 1
n
1
n
1
AE pE
2 1
kada je ukupan broj povoljnih
ishoda u oba uzorka je (x1 + x2) i
* E E E
2 1
2 1
2 1
n n
x x
p p p
+
+
Pretpostavka: interval
n
AE 4 pE
4 2 pE t ne sadri 0 ili 1.
P(/6&'( 9.9: Dva lijeka A i B se daju pacijentima u injekcijama. Pacijenti se sluajno
svrstavaju u jednu od dvije grupe i primaju ili lijek A ili lijek B. Reakcija na lijek je
prikazana u tablici 9.3.Testirati hipoteze je li udjel pacijenata koji reagiraju na lijek A manji
od udjela pacijenata koji reagiraju na lijek B. Testirati na razini signifikantnosti od = 0.01.
Broj pacijenata s reakcijom na lijek Broj pacijenata u uzorku
Lijek A
Lijek B
45
82
150
250
T,8-/), 9.3. Reakcija pacijenata na lijekove
R&'3'*&': Potrebno je testirati hipoteze o razlici proporcija u dva uzorka:
H0: (p1 - p2) = 0; nul hipoteza tvrdi da nema razlika u proporcijama.
Ha: (p1 - p2) < 0; alternativna hipoteza tvrdi da je proporcija pacijenata s reakcijom na
novi lijek B povecana.
Znaenje proporcija je slijedece:
p1 = proporcija populacije pacijenata s reakcijom na lijek A.
p2 = proporcija populacije pacijenata s reakcijom na novi lijek B.
Broj elemenata u uzorku je 150 odnosno 200 pa su uzorci dovoljno veliki. Jednostrani test
odbacuje nultu hipotezu ako je z < -z0.01, = -2.33
196
Jedine informacije kojima se raspolae su informacije iz uzorka. Prave proporcije populacija
su nepoznate. Zato ce se u test statistici uporabiti proporcije u uzorcima:
3 * 0
150
45
pE
1
; 328 * 0
250
82
pE
2
G 7 * 0 3 * 0 1 pE 1 AE
1 1
672 * 0 328 * 0 1 pE 1 AE
2 2
.
Testira se razlika proporcija dva uzorka tj. nul hipoteza da nema razlika u proporcijama pa
je R0 = 0. Test statistika je:
,
_
2 1
0 2 1
n
1
n
1
AE 4 pE
$ ) pE pE 1
"
Potrebno je izraunati relativni udio (relativnu frekvenciju) povoljnih ishoda u oba uzorka:
3175 * 0
250 150
82 45
pE
+
+
. Sada je jednostavno izraunati statistiku z:
583 * 0
048 * 0
028 * 0
250
1
150
1
4 ) 6825 * 0 )1 3175 * 0 1
0 ) 328 * 0 3 * 0 1
"
,
_
s n
Podruje odbijanja:
2
>
2
ili
2
<
2
1-
)
Podruje odbijanja:
2
<
2
1-/2 ili
2
>
2
/2
gdje
2
i
2
1
su vrijednosti
2
koje odreduje povrsinu za desno odnosno za
hi-kvadrat distribuciju s (n -1) stupnjeva slobode.
Pretpostavka: Populacija iz koje se bira sluajni uzorak ima priblino normalnu
distribuciju.
R&'3'*&': Obje hipoteze se moraju izraziti pomocu varijance. Testirat ce se nulta hipoteza
da je
2
= 0.3 gram i alternativna da je
2
< 0.3. Obje hipoteze su:
H0:
2
= 0.3
Ha:
2
<0.3
Jasno je da sto je manja vrijednost s
2
to je vise dokaza u korist alternativne hipoteze. Za
male vrijednosti test statistike se odbacuje nulta hipoteza. Za = 0.05 i 9 stupnjeva
slobode nulta hipoteza ce se odbiti za
2
< 3.32511.
8 * 4
3 * 0
) 4 * 0 1 4 9 s ) 1 n 1
2
2
0
2
2
Ta vrijednost je veca od 3.32511 pa se ne moe odbaciti nulta hipoteza da je varijanca
populacije jednaka 0.3 grama s 95% sigurnosti.
6.9.7. T'1+/(,*&' A/27+'?, 7 7.*71> ;,(/&,*)/ .;/&' 272>-,)/&'
Cesto praktini problemi zahtijevaju testiranje hipoteza o varijanci dvije populacije. Zato je
potrebno izgraditi odgovarajuci statistiki model. Poslovni problemi su esto povezani s
analizama u varijacijama prihoda, troskova, profita po mjesecima ili varijacije u povratima
ulaganja u vrijednosne papire koji imaju jednake stope povrata. Standardna devijacija i
varijanca su mjere za odredivanje rizika ulaganja jer ako je veca varijanca to je i rizik
povrata veci.
Odgovarajuci statistiki model za testiranje hipoteza o odnosu varijanci dvije populacije
prikazan je u slijedecoj tablici:
Testiranje hipoteza o odnosu varijanci dvije populacije
2
2
2
1
Jednostrani test
H0: 1
2
2
2
1
ili
Ha: 1
2
2
2
1
>
ili (Ha: 1
2
2
2
1
<
)
Dvostrani test
H0: 1
2
2
2
1
Ha: 1
2
2
2
1
198
Test statistika:
2
1
2
2
2
2
2
1
s
s
) ili
s
s
)
Test statistika:
u"orka varijanca 5anja
u"orka varijanca a 7eH
)
'
>
>
2
1
2
2
2
1
2
2
2
2
2
1
2
2
2
1
s s je ako
s
s
s s je ako
s
s
)
Podruje odbacivanja:
F > F
Podruje odbacivanja:
F > F
/2
gdje su F
i F
/2 vrijednosti koje odreduje podruje i /2.
Pretpostavka:
1. Populacija iz koje se biraju uzorci ima relativnu frekvenciju distribucija kao
normalna distribucija
2. Sluajni uzorci su medusobno neovisni.
Iz populacije s normalnom distribucijom biraju se dva uzorka
1
n 2 1
2 ,***, 2 , 2
i
2
n 2 1
2 ,***, 2 , 2
.
Iz ta dva uzorka se izraunavaju varijance
2
1
s i
2
2
s , a potom njihov kolinik
2
2
2
1
s
s
koji se
razlikuje od 1. Testiranje hipoteze je provjera uzroka tih razlika u varijancama tj. jesu li
one sluajne ili su posljedica razlika u varijancama populacije. Nulta hipoteza je:
H0: 1
2
2
2
1
gdje su
2
1
i
2
2
varijance populacija iz kojih se biraju uzorci.
Odluka o odbacivanju ili prihvacanju nulte hipoteze H0 se donosi uporabom F-testa.
Statistike
n s n s
1 1
2
1
2
2 2
2
2
2
i
imaju Hi-kvadrat distribuciju s (n1-1) i (n2-1) stupnjeva slobode. Uzorci su neovisni.
Statistika
2
1
2
2
2
2
2
1
s
s
) ili
s
s
) ima F-raspodjelu sa (n1-1) i (n2-1) stupnjeva slobode.
Iz tablice za F-raspodjelu odreduje se kritina vrijednost u skladu sa alternativnom
hipotezom. Ako je alternativna hipoteza Ha: 1
2
2
2
1
>
Ako je F<F1 ili F>F2, hipoteza H0 se odbacuje, a ako je F1<F<F2, hipoteza H0 se ne
odbacuje. Vrijednost statistike F se odreduje po obrascu
'
>
>
2
1
2
2
2
1
2
2
2
2
2
1
2
2
2
1
s s je ako
s
s
s s je ako
s
s
) a kritine
vrijdnosti iz tablice funkcije F-raspodjele sa (n1-1) i (n2-1) stupnjeva slobode.
P(/6&'( 9.11: Skupina 25 studenata je sluajno podijeljena u dva skupa n1 = 14, a ti
studenti su slusali predavanja iz statistike uz uporabu raunala i drugi skup n2 = 11, a ti
studenti su slusali klasina predavanja iz statistike bez uporabe statistikih softverskih
paketa. Na kraju svi studenti su testirani i rezultati testiranja su prikazani u tablici 9.4.
Sadre li podaci dovoljno dokaza da se njihova znanja razlikuju jer su jedni dobili nove
informacije a drugi su imali klasina predavanja? Testirati na razini signifikantnosti =
0.01.
Skupina 1 Skupina 2(eksp)
Veliina uzorka
Standardna
devijacija
14
2.21
11
3.24
T,8-/), 9.4. Podaci o uspjehu studenata
R&'3'*&'I Neka su
2
1
= Varijanca rezultata studenata u skupini 2
2
2
= Varijanca rezultata u skupini 1
Potrebno je postaviti nultu i alternativnu hipotezu
H0: 1
2
2
2
1
ili
2
2
2
1
Ha: 1
2
2
2
1
ili
2
2
2
1
Prema prikazanom statistikom modelu za testiranje odnosa varijanci dvije populacije za
dvostrane testove:
15 * 2
21 * 2
24 * 3
s
s
u"orka varijanca 5anja
u"orka varijanca a 7eH
)
2
2
2
1
2
2
Slijedeci korak je odrediti odgovarajuce podruje odbacivanja nulte hipoteze za sto je
potrebna distribucija uzorka test statistike.Pretpostavka je da su rezultati testiranja
200
studenata normalno distribuirani. Tada F statistika
2
1
2
2
s
s
) ima svojstva F distribucije s
1 = (n2 - 1) stupnjeva slobode u brojniku i 2= (n1 - 1) stupnjeva slobode u nazivniku.
F- distribucija moe biti simetrina u odnosu na sredinu, lijevo ili desno nagnuta. Njen oblik
ovisi o broju stupnjeva slobode povezanih s varijancama
2
2
s i
2
1
s . U danom primjeru 1(n2
- 1) = 10 i 2 =(n1 - 1) = 13. F-distribucija s brojnikom 1= 10 stupnjeva slobode i
nazivnikom 2 = 13 stupnjeva slobode je nagnuta desno, a F vrijednost za = 0.05 i taj
broj stupnjeva slobode je F0.05 = 2.67. Izraunata F vrijednost je 2.15 i ona je manja od
2.67. Nije ispunjen je uvjet za odbacivanje nulte hipoteze. Ne moe se tvrditi da nova
metoda uenja statistike poboljsava rezultate postignute na ispitima iz statistike.
)oda4tak> Tablica F- distri-bucije za =0.05 .
6.10. ANALIZA KVALITATIVNI# PODATAKA I ANALIZA VARIJAN"E
6.10.1. $;7.
Sada cemo se fokusirati samo na metode za obradu kvalitativnih podataka. Metode obrade
kvalitativnih podataka temelje se na usporedbi utvrdenih (opaenih ili izmjerenih)
frekvencija s frekvencijama koje su dane hipotezom i koje treba testirati.Testiranje takvih
hipoteza se naziva test suglasnosti (goodness of fit).
1
2
%(7&*/5 D 1+>2*&';/ 1-787.'
10 12 15 20 24 30 40 60 120
N,?/;
*/5D
1+>2*
&';/
1-787
.'.
1 241.9
0
243.9
0
245.9
0
248.0
0
249.1
0
250.1
0
251.1
0
252.2
0
253.3
3
254.3
0
2 19.40 19.41 19.43 19.45 19.45 19.46 19.47 19.48 19.49 19.50
3 8.79 8.74 8.70 8.66 8.64 8.62 8.59 8.57 8.55 8.53
4 5.96 5.91 5.86 5.80 5.77 5.75 5.72 5.69 5.66 5.63
5 4.74 4.68 4.62 4.56 4.53 4.50 4.46 4.43 4.40 4.36
6 4.06 4.00 3.94 3.87 3.84 3.81 3.77 3.74 3.70 3.67
7 3.64 3.57 3.51 3.44 3.41 3.38 3.34 3.30 3.27 3.23
8 3.35 3.28 3.22 3.15 3.12 3.08 3.04 3.01 2.97 2.93
9 3.14 3.07 3.01 2.94 2.90 2.86 2.83 2.79 2.75 2.71
10 2.98 2.91 2.85 2.77 2.74 2.70 2.66 2.62 2.58 2.54
11 2.85 2.79 2.72 2.65 2.61 2.57 2.53 2.49 2.45 2.40
12 2.75 2.69 2.62 2.54 2.51 2.47 2.43 2.38 2.34 2.30
13 2.67 2.60 2.53 2.46 2.42 2.38 2.34 2.30 2.25 2.21
14 2.60 2.53 2.46 2.39 2.35 2.31 2.27 2.22 2.18 2.13
15 2.54 2.48 2.40 2.33 2.29 2.25 2.20 2.16 2.11 2.07
16 2.49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 2.01
17 2.45 2.38 2.31 2.23 2.19 2.15 2.10 2.06 2.01 1.96
201
Pokazat ce se testiranje dvije kvalitativne varijable koje su medusobno neovisne. Ako se
distribucija uzoraka ponasa po hi-kvadrat distribuciji onda se testovi nazivaju hi-kvadrat
testovi. Ti testovi su korisni u analizi vise od dvije sredine populacije.
6.10.2. T'1+ 1>9-,1*71+/
Poznato je da se kvalitativne varijable mogu samo klasificirati ili kategorizirati. Primjerice,
promatra se razina obrazovanja ispitanika o znanju primjenskih softvera. Razina
obrazovanja je kvalitativna varijabla i svaki ispitanik se moe rasporediti u jednu i samo
jednu od tri kategorije: zna pisati na raunalu, zna programirati, zna projektirati
informacijske sustave. Rezultat ce biti broj ispitanika koji se nalaze u jednoj od tri
kategorije ili frekvencija pojavljivanja pojedine kategorije znanja. Ako kvalitativna varijabla
moe poprimiti samo dvije vrijednosti onda se podaci mogu analizirati primjenom binomne
distribucije.Cesce su kvalitativne varijable koje imaju vise od dvije kategorije i one se mogu
analizirati uporabom razliitih metoda nazvanih test suglasnosti. On se temelji na usporedbi
opaene distribucije frekvencija i (oekivane) pretpostavljene distribucije.
P(/6&'( 10.1I Razinu informatikog obrazovanja ispitanika ine tri kategorije: zna pisati
na raunalu, zna programirati, zna projektirati informacijske sustave. Procjenjuje se na
temelju iskustva da 68% zna pisati, 28% zna programirati, i 4% zna projektirati
informacijske sustave. Da bi provjerio te postotke izabran je sluajni uzorak od n = 100
ispitanika i zabiljeen je stupanj njihova obrazovanja. Broj ispitanika svrstan u pojedine
razine obrazovanja prikazan je u 10.1.
R,?/*, /*:7(6,+/4579 78(,?7;,*&,
Zna itati Zna programirati Zna projektirati IS Ukupno
71 23 6 100
Table @B#@ Kategorije koje korespondiraju razini obrazovanja
Postavlja se pitanje razlikuju li se opaene (izmjerene) frekvencije u tablici 10.1. od
subjektivne procjene informatikih znanja izraenih postocima 68% (zna pisati), 28% (zna
programirati), i 4% (zna projektirati). Prvi korak u testiranju hipoteze da se subjektivna
procjena znanja i izmjerene frekvencije u uzorku ne razlikuju je utvrditi postotak
ispitanika koji pripadaju pojedinim kategorijama u uzorku od 100 elemenata.
R&'3'*&': Svaki ispitanik se moe pridruiti jednoj i samo jednoj od tri kategorije
obrazovanja, a sto je prikazano u tablici 10.2.
202
R,?/*, /*:7(6,+/4579 78(,?7;,*&,
Zna
itati
Zna
programirati
Zna
projektirati
Ukupno
Redni broj
Vjerojatnost
1
p1 = 0.68
2
p2=0.28
3
p3 =0.04 1.00
Tablica @B#E Vjerojatnosti kategorija temeljene na procjeni istraivaa
Analizirat ce se prva celije u tablici zna itati tj. elementarno znanje. Pretpostavka je da
razina obrazovanja jednog ispitanika neovisna o razini obrazovanja drugog. Tada je broj
promatranja O1 distribuiran po binomnoj raspodjeli i oekivana vrijednost je
e1=n*p1=100*0.68=68. Slino tom zakljuku moe se izraunati i oekivani broj odgovora
u celijama 2 i 3:e2=n*p2=100*0,28=28 i e3=n*p3=100*0,01=4
Oekivani broj odgovora i stvarni broj odgovora prikazuje slijedeca tablica
R,?/*, /*:7(6,+/4579 78(,?7;,*&,
Zna
itati
Zna
programirati
Zna
projektirati
Ukupno
Opaeni broj
Oekivani broj
71
(68)
23
(28)
6
(4)
100
100
T,8-/), 10.3 Opaeni i oekivani broj odgovora u tablicama
Formula za izraunavanje oekivanih vrijednosti ei=n*pi gdje je ei =oekivana vrijednost za
i-tu celiju, n = veliina uzorka, pi subjektivna vjerojatnost da ce izmjerena (opaena)
vrijednost biti u i-toj celiji. Moe se postaviti i pitanje jesu li zabiljeeni odgovori 100
ispitanika u uzorku u suglasnosti s procijenjenim vjerojatnostima. Ako se frekvencije
razlikuju onda se kae da teorijske vjerojatnosti nisu u suglasnosti s podacima u uzorku..
Relevantne nul i alternativne hipoteze su:
H0 - opaene i oekivane vjerojatnosti su jednake tj. p1=0.68 , p2=0.28, p3=0.04.
Ha - najmanje dvije od tri vjerojatnosti p1,p2,p3 razlikuju se od vrijednosti postavljene u
nultoj hipotezi.
Statistika za prvu celiju u prethodnoj tablici se izraunava iz izraza:
1
1 1
e
e ,
Zbroj tih izraunatih vrijednosti za sve celije u tablici je test statistika koja se rabi za
testiranje hipoteza o suglasnosti izmjerenih i oekivanih frekvencija:
3
1
2
3
2
3 3
2
2
2 2
1
2
1 1 2
) 1 ) 1 ) 1 ) 1
i i
i i
e
e O
e
e O
e
e O
e
e O
P(/6&'( 10.2I Odrediti podruje odbacivanja nulte hipoteze za prethodni test. Uporabiti
razinu signifikantnosti =0.05. Testirati jesu li izmjerene relativne frekvencije u uzorku
jednake subjektivnim (procijenjenim) vjerojatnostima.
R&'3'*&'I Vrijednost hi-kvadrat distribucije se povecava s kvadratom povecanja razlike
izmedu opaenih i oekivanih vrijednosti (brojnik izraza za hi-kvadrat distribuciju je
2
i i
) e , 1 ). Nulta hipoteza H0: p1=0.88, p2=0.28, p3=0.04 se odbacuje za vrijednosti hi-
kvadrat testa koje su vece od kritine vrijednosti. Podruje odbacivanja nulte hipoteze:
2
>
2
k
i i
i i
e
e O
1
2
2
) 1
>
Pretpostavka za hi-kvadrat test je da se svaki od n opaaja moguce razvrstati samo u
jednu od k kategorija ili celija. Vjerojatnost da ce izmjerena vrijednost biti razvrstana u
celiju je pi za i=l,2,3 ... k.
Hi-kvadrat test je jedna od najiskoristenijih statistikih procedura, ali bi morao uvijek
provjeriti ispunjava li problem potrebne pretpostavke..
6.10.3. A*,-/?, +,8-/), 57*+/9'*)/&'
Kvalitativni podaci se esto svrstavaju prema dvije kvalitativne varijable. Kao praktian
primjer klasifikacije podataka na temelju dvije varijable analizirat ce se tablica 2x3 :
Da Ne Neodluni Ukupno
Zene
Muskarci
110
99
95
71
45
30
250
200
Ukupno 209 166 75 450
T,8-/), 10.5. Stavovi ispitanika o proizvodu A
Testirat ce se hipoteza da ne postoji razlika u stavovima izmedu muskaraca i ena o
kvaliteti nekog proizvoda A. Pretpostavka je da su odgovori ispitanika neovisni o spolu
osobe. Odgovore prikazuje tablica 10.5. Ako odgovor ovisi o spolu intervjuirane osobe onda
ce tablica omoguciti izraunavanje stupnja ovisnosti. Tablica dizajnirana na takav nain se
naziva tablica kontigencije. Kontigencija znai ovisnost. Obino razumijemo pojam
kontigencijskog planiranja. Planovi koji ce se izvrsavati ako se ispune odredene
pretpostavke. Svrha analize kontigencijskom tablicom je odrediti i ispitati postoji li
ovisnost izmedu dvije kvalitativne varijable. Nul hipoteza ce se prilagoditi i glasi: postoji
veza izmedu stava o kvaliteti proizvoda A i spola intervjuirane osobe.
Prvo ce se izraunati proporcija ena u uzorku 56 * 0
450
250
. Od ukupnog broja ispitanika
(muskaraca i ena) njih 209 smatra da je proizvod A kvalitetan. Na temelju proporcije ena
204
i broja ispitanika koji su odgovorili s Da,moe se izraunati oekivani broj ene koje
smatraju da je proizvod A kvalitetan: 4 * 117 209 4
450
250
.
Oekivani broj ena (prvi redak) s odgovorom Da (stupac 1) je:
116*1 ) ukupno 1 +%upac 1 4
n
ukupno 1 $edak
209 4
450
250
e
11
,
_
,
_
,
_
. Oekivani broj
neodlunih ena je:
* 7 * 41 ) ukupno 3 +%upac 1 4
n
ukupno 1 $edak
75 4
450
250
e
13
,
_
,
_
.
Istom logikom se preraunavaju sve celije u drugom retku (odnose se na muskarce).
Ukupan broj muskaraca je 200. Zato je oekivana proporcija u uzorku muskaraca
44 * 0
450
200
. Sada je jednostavno preraunati oekivane vrijednosti u celijama drugog
retka:
92*9 209
450
200
e
21
,
_
;
8 * 73 166
450
200
e
22
,
_
;
33*3 75
450
200
e
21
,
_
.
Oekivana vrijednost u tablici kontigencije se moe izraunati tako sto se pomnoi zbroj
odgovarajuceg retka Ri i stupca Cj i taj rezultat podijeli veliinom uzorka n:
n
C $
e
j i
ij
* $e"ul%a% i"raFunavanja sviI oFekivaniI vrijednos%i u Helija/a kon%i-encijske
%alice vidljiv je u %alici 10*6*
Da Ne Neodluni Ukupno
Zene
Muskarc
i
110
@@H-
@
99
IE-I
95
IE-E
71
G=-J
45
?@-G
30
==-=
250
EKB
200
EBB
Ukupno 209 166 75 450
Tablica 10.6.Oekivane vrijednosti u tablici kontigencije
Slijedeci korak je izraunati hi-kvadrat statistiku
2
. Nain njena izraunavanja je prikazan
u ranijem primjeru:
51 * 1
3 * 33
) 3 * 33 30 1
* * *
1 * 92
) 1 * 92 95 1
1 * 116
) 1 * 116 110 1
e
) e , 1
* *
e
) e , 1
e
) e , 1
2 2 2
23
2
23 23
12
2
12 12
11
2
11 11 2
+ +
+ +
Kontigencijske tablice imaju i broj stupnjeva slobode i on je uvijek jednak izrazu
(r - 1) (c -1), gdje je r broj redaka i c broj stupaca. Na temelju tablice hi-kvadrat testa za
dva stupnja slobode i = 0.05 kritina vrijednost za
2
je 5.99. Izraunata test
statist9ika je manja od kritine vrijednosti te se ne moe prihvatiti alternativna hipoteza da
muskarci i ene imaju razliite stavove o kvaliteti proizvoda A s 95% sigurnosti.
6.10.4. A*,-/?, ;,(/&,*)'
Koncept koji se nalazi u pozadini analize varijance (AN,-J1/1 O: VA(/,*)' OANOVAH
objasnit ce se na primjeru.
205
P(/6&'( 10.3I U uenju i rjesavanju matematikih zadataka u uporabi su tri knjige. Na
kraju semestra ocjenjuju se znanja 18 uenika kojima su podijeljene knjige tako da se
knjigom istog autora sluilo 6 uenika. Rezultati testa (broj bodova postignut na testu)
prikazani su u tablici 10.7.
$.C8'*/5
1
$.C8'*/5
2
$.C8'*/5
3
7 10 7
4 8 5
7 10 6
4 14 5
3 8 7
7 10 5
2 8 6
7 8 7
4 14 6
Z8(7& 45 90 54
S('./*,
>?7(5,
5 10 6
Z8(7& 7)&'*, ?, +(/ >?7(5,I 189R S('./*, +(/
>?7(5,I 7.
Tablica @B#G Broj bodova uenika na testu
Sredine uzoraka su 5, 10 i 6. Jednostavno je uoiti varijabilnost broja bodova unutar
pojedinih skupina i izmedu skupina. Medutim, teorijski je moguce postojanje i ekstrema u
varijabilnosti podataka unutar skupina i izmedu skupina. Prvi ekstrem bi bila situacija kada
je u svakoj skupini pojedinano jednak broj osvojenih bodova. Nema nikakve varijabilnosti
unutar skupine ali je ona zadrana izmedu skupina.
$.C8'*/5
1
$.C8'*/5
2
$.C8'*/5
3
5 10 6
5 10 6
5 10 6
5 10 6
5 10 6
5 10 6
5 10 6
5 10 6
5 10 6
Z8(7& 45 90 54
S('./*,
>?7(5,
5 10 6
Z8(7& 7)&'*, ?, +(/ >?7(5,I 189R 1('./*, +(/
>?7(5,I 7.
Tablica @B#G Nema varijabilnosti unutar skupine
Slijedeca tablica prikazuje drugi ekstrem. Sredine svake skupine su jednake i iznose tri
boda, ali je zadrana varijabilnost unutar skupine. Nema varijabilnosti izmedu skupina ali
postoji unutar skupine. Ta dva ekstrema su rijetka. Cesta i normalna situacija je ona koja
zadrava varijabilnosti izmedu i unutar skupina.
Udbenik
1
Udbenik
2
Udbenik
3
3 6 7
206
4 2 3
5 4 4
5 7 5
5 6 2
4 5 5
7 4 7
5 3 6
7 8 6
Z8(7& 45 45 45
S('./*,
>?7(5,
5 5 5
Z8(7& 7)&'*, ?, +(/ >?7(5,I 135R 1('./*, +(/
>?7(5,I 7
Tablica @B#J Nema varijabilnosti izmedu skupina
Zato je esto potrebno procjenjivati varijabilnost unutar skupine i izmedu skupina. To je
upravo zadatak analize varijance. U danom primjeru sredina za sve tri skupine je:
7
27
189
27
) 6 7 6 * * 7 4 7 1
0
+ + + + +
Ukupan zbroj kvadrata (Total Sum of Squares) odstupanja od sredine za sve tri skupine je:
SS(Total)= (7-7)
2
+ (4-7)
2
+ (7-7)
2
+ (4 -7)
2
+ (3-7)
2
+ (7-7)
2
+(2 -7)
2
+ (7-7)
2
+(4 - 7)
2
+
+(10 -7)
2
+ (8-7)
2
+ (10 - 7)
2
+ (14 - 7)
2
+ (8 - 7)
2
+ (10 - 7)
2
+ (8 -7)
2
+ (8 -7)
2
+ (14
-7)
2
+
+ (7 - 6)
2
+ (5 - 7)
2
+ (6 - 7)
2
+ (5 -7)
2
+ (7 -7)
2
+ (5 -7)
2
+ (6 -7)
2
+ (7 -7)
2
+ (6 -7)
2
=
= 50 + 66 + 60 = 176.
Postoji i varijabilnost unutar skupina (zbroj kvadrata odstupanja od sredina pojedinih
skupina - Sum of Squared Errors). Taj zbroj je jednak:
SSE = (7 - 5)
2
+ (4 - 5)
2
+ (7- 5)
2
+ (4- 5)
2
+ (3 -5)
2
+ (7 - 5)
2
+(2 - 5)
2
+ (7 - 5)
2
+(4 -
5)
2
+
+(10-10)
2
+(8-10)
2
+(10-10)
2
+(14-10)
2
+(8 -10)
2
+(10-10)
2
+(8-10)
2
+(8-10)
2
+(14 - 10)
2
+
+ (7 - 6)
2
+ (5 - 6)
2
+ (6 - 6)
2
+ (5 - 6)
2
+ (7 - 6)
2
+ (5 - 6)
2
+ (6 - 6)
2
+ (7 - 6)
2
+ (6 - 6)
2
=
= 32 + 48 + 6 = 86.
Mogu se promatrati i zbrojevi kvadrata odstupanja sredina skupina od sredine cijele
populacije: (5 - 7)
2
+ (10 - 7)
2
+ (6 - 7)
2
= 4 + 9 + 1 =14.
Taj zbroj je potrebno pomnoiti sa devet on samo devetina varijance izmedu skupina.
Varijanca izmedu skupina je 14*9=126.
Sada je potrebno usporediti tri veliine, tri zbroja: zbroj kvadrata odstupanja izmedu
skupina, zbroj kvadrata odstupanja unutar skupina i ukupan zbroj kvadrata odstupanja:
SS(Izmedu skupina)
SS(Unutar skupina)
SS(Ukupno)
126
86
212
Tablica@B#I Zbroj kvadrata
Ukupna varijabilnost je 212 i ona se sastoji iz varijabilnosti unutar skupina (86) uvecana za
varijabilnost izmedu skupina. U danom primjeru varijabilnost izmedu skupina je znatno
veca od varijabilnosti unutar skupina. Te zbrojeve je ipak potrebno prilagoditi tako sto ce se
razmotriti i informacija iz koliko skupina podataka su izraunati ti kvadrati odstupanja.
Zbrojevi odstupanja od odgovarajucih sredina ce posluiti za izraunavanje varijanci
uzorka. Zbroj kvadrata izmedu skupina ima tri devijacije oko sredine sloenog
(kombiniranog) uzorka. Zato je broj stupnjeva slobode 3 - 1 = 2 a varijanca uzorka na
temelju zbroja kvadrata odstupanja:
207
63
2
126
1 3
) J+ 1 ++
Ta varijacija se naziva Mean Square for Error (MSE).
Te dvije varijacije MST, mjeri varijabilnost izmedu skupina, i MSE, mjeri varijabilnost unutar
skupine, se sada mogu usporedivati. Njihov odnos je
58 * 17
5833 * 3
63
5+<
5+K
) .
Taj rezultat pokazuje da je MST 17.58 puta veca od MSE. On je indikator mnogo vece
varijabilnosti izmedu skupina od varijabilnosti unutar skupina. Naravno, izbor nekih drugih
skupina bi dao drugaije rezultate jer bi se sredine skupina najvjerojatnije razlikovale od
sredina skupina u danom primjeru dok bi sredina populacije bila nepromijenjena. Ta
varijabilnost uzorka se moe analizirati pomocu tablice za F distribuciju tako sto se odrede
stupnjevi slobode za MST i MSE i razina signifikantnosti. Vrijednost u F-tablici za razinu
signifikantnost 0.01 je 6.36. Izraunati odnos varijabilnosti izmedu skupina i unutar skupina
je 17.58. Moe se zakljuiti da postoji znaajna razlika u rezultatima uenika na testu
znanja ovisno o udbeniku kojim se uenik slui u pripremanju za test.
Rezultati izraunavanja su prikazani u slijedecoj tablici:
Izvor varijacije Zbroj
kvadrata
odstupanja
Broj
stupnjeva
slobode
Sredina
kvadrata
F
Izmedu skupina 126 2 63 17.58
Unutar skupina 86 24 3.583
3
Tablica @B#@B Analiza varijance
Jednosmjerna ANOVA je test koji se koristi da bi se testiralo vise neovisnih uzoraka koji
dolaze iz populacija sa istom srednjom vrednosti. Navedeni jednostavni primjer F testa za
tri uzorka se moe poopciti i obino se prikazuje u obliku tablice:
Izvor
varijacija
Zbroj kvadrata
odstupanja
Broj stupnjeva
slobode
Sredina
kvadrata
F
1 2 3 (2/3) F = MST/MSE
Izmedu skupina SST k-1 MST/(k-1)
U skupinama SSE n-k SSE/(n-k)
Ukupno SS(Total) n-1 40 -
Tablica @B#@@ Analiza varijance
Svi statistiki softverski paketi sadre mogucnosti uporabe jednosmjernih ANOVA testova.
Zato ce se prikazati primjer analize varijance uporabom softverskog paketa za proraunske
tablice - Excela.
P(/6&'( ,*,-/?' ;,(/&,*)' > ES"ELD>I Bitan faktor prodaje je frekvencija broja kupaca
unutar prodajnog prostora. Zato se postavljanju proizvoda na odgovarajuce mjesto,
njegovu izlaganju mora pokloniti odgovarajuca pozornost. ANOVA moe posluiti za
detektiranje utjecaja izlaganja proizvoda P na njegovu koliinu prodaje. Proizvod se izlae
208
na etiri razliita mjesta A, B,C i D. U tablici 10.12 su prikazane prodane koliine proizvoda
P na ta etiri mjesta unutar prodajnog objekta za 14 dana. Prikazana je tablica u Excelu:
U tom primjeru rjesenje je tzv. "one-way ANOVA" jer se analizira samo jedan faktor a on je
mjesto izlaganja proizvoda P.
K7(,5 1I Postaviti nultu hipotezu. N>-+, A/27+'?, > +'1+> ANOVA je da su sredine
skupina jednake:
4 3 2 1 0
L 3
4 3 2 1 a
L 3
Ako je istinita nulta hipoteza to znai da su sve etiri skupine iz iste populacije. Te etiri
skupine s njihove etiri razliite sredine su samo etiri toke na iste distribucije uzorka. Ako
je tona ta hipoteza onda je varijanca izmedu skupina jednaka varijanci unutar skupina.
K7(,5 2I Izabrati razinu signifikantnosti. Najesce su to vrijednosti 0.05 i 0.10.
K7(,5 3I Izraunati F statistiku uporabom Excelove Data Analysis. Kliknuti na TOOLS i
izabrati DATA ANALYSIS. Iz izbornika DATA ANALYSIS odabrati odgovarajuci tip ANOVA.
209
Postoje tri tipa ANOVA analize u Excelu. u danom primjeru uporabit ce se "Single factor"
ANOVA jer se promatra samo jedan faktor. Nakon izbora te opcije pojavljuje se izbornik:
Potrebno je odrediti ulazne podatke (raspon celija "Input Range"), oznaku za prvi redak
("Labels in First Row") i razinu signifikantnosti ("Alpha"). Nakon klika na opciju OK
pojavljuje se slijedeci rezultat:
Posljednji korak je interpretiranje rezultata. Prosjene prodaje su najvece na mjestu B,
zatim slijede A, D i C.Jesu li te razlike u prodaji statistiki signifikantne?Rezultat test je
vrijednost F=2.33.Za razinu signifikantnosti 0.05 kritina vrijednost za F=2.78.Zato sto je F
statistika manja od kritine vrijednosti ne moe se odbaciti nulta hipoteza. Nulta hipoteza
tvrdi da su prodaje na sva etiri mjesta jednake.Razlike koje postoje u prosjenim
prodajama rezultat su sluajnih pogresaka u izboru uzoraka.
6. 11. REGRESIJSKA ANALIZA
Inferencijalna statistika izvodi opce zakljuke, zakljuke o populaciji na temelju dijela
populacije, uzorka. Zakljuivati o cijelini na temelju njezina dijela sloena je aktivnost. Zato
se mora biti veoma oprezan u izvodenju zakljuaka, u tom pokusaju da se sagleda opce na
temelju posebnoga. Temeljni problem je odrediti koliko smo sigurni da su svi rezultati
210
istraivanja reprezentativni za cijelu populaciju. Primjeri takvih istraivanja su brojni, a
poduzimaju se u razliitim znanstvenim disciplinama. Slijedi primjer, uporabljiv u
poslovnim istraivanjima, a on prikazuje mogucnosti utvrdivanja i analize relacija izmedu
varijabli u ekonomskom procesu. Analizom ekonomskog procesa uoena je veza izmedu
potrosnje i dohodka u svakoj trisnoj ekonomiji.Smjer je veze jasan i razumljiv. Veca
potrosnja moe dugorono slijediti samo iz veceg dohodka i obrnuto. Istraivanja nastoje
egzaktno utvrditi jakost veze izmedu dohodka i potrosnje u obliku matematikih funkcija.
Potrosnja je uvijek ovisna varijabla a dohodak neovisna.
Cesto nije moguce prikupiti sve podatke o potrosnji i dohodku pa se ponovno i u
istraivanju moramo sluiti uzorcima i zakljuivati na temelju uzoraka. Istraivati i
spoznavati o nainu funkcioniranja ekonomije i odnosima izmedu npr. makroekonomskih
agregata (potrosnje i dohodka) je novo znanje o ekonomskom sustavu, nova ekonomska
spoznaja.
U ranijim je analizama pokazano da uvijek postoji odreden stupanj vjerojatnosti izabrani
uzorak nije reprezentativan i ne odraava svojstva cijele populaciju iz koje se bira.
Distribucija uzoraka pokazuje da se s dovoljnom velikim brojem uzoraka i dovoljno velikim
brojem jedinica u uzorku moe odabrati prosjean uzorak koji ce biti nepristran,
reprezentativan za cijelu populaciju. Medutim, ponovno se pojavljuje ogranienje. U
istraivanju se rijetko prikupljaju podaci o vecem broj uzoraka nego se, gotovo uvijek,
prikupljaju podaci o samo jednom uzorku. Zato u pomoc dolazi centralni granini teorem.
On tvrdi da za dovoljno velik uzorak, distribucija uzoraka ce slijediti normalnu Gaussovu
distribuciju ili Studentovu t-distribuciju. Teorijske distribucije (normalna i t-distribucija)
omogucuju izraunavanje vjerojatnosti da ce statistika uzorka (pokazatelji uzorka) biti
unutar odredenog intervala parametara populacije. Drugim rijeima, potrebno je s
odredenim stupnjem vjerojatnosti odrediti interval u kojem se nalaze parametri populacije.
Taj interval se izraunava na temelju statistike uzorka. U istraivanju i zakljuivanju na
temelju uzorka istraiva stalno traga za tonim odgovorom ali ga nemoe dobiti u jednoj
znamenci, nego moe samo procjenjivati interval unutar kojeg se nalazi parametar
populacije.
Zato sto pravi odgovor ostaje tajna istraivau , ostaje mu jedina mogucnost postaviti
hipoteze i teoretizirati. U danom primjeru veze potrosnje i dohodka vec je proveden
odredeni stupanj teoretiziranja i postavljanja hipoteza. Nismo se posluili ni jednim
egzaktnim pokazateljem a postavili smo hipotezu o smjeru veze izmedu dohodka i
potrosnje. Teorija tvrdi da je smjer te veze pozitivan (ili sto je isto nagib pravca nije nije
nula niti negativan) . Ako bi se izrekla tvrdnja da svako povecanje dohodka od jedne
novane jedinice stvara prostor za povecanje potrosnje od 0.6 novanih jedinica na temelju
podataka prikupljenih u uzorku, onda bi zakljuivali o vezi dohodka i potrosnje na egzaktan
nain, bez teoretiziranja i prethodnih uopcavanja odnosa izmedu tih makroekonomskih
agregata. Drugi uzorak bi mogao pokazati, kvantitativno izraenu, drugaiju vezu potrosnje
i dohodka. Npr., povecanje dohodka za jednu novanu jedinicu uopce ne povecava
potrosnju. Kako cemo onda biti sigurni da je prvi zakljuak toan ili da prvi rezultat realno
odraava odnose potrosnje i dohodka? Ili je moda toan drugi rezultat?
Zato se prvo mora definirati naelo na temelju koga ce se izvoditi zakljuci. To naelo je
teorijska spoznaja o smjeru veze izmedu potrosnje i dohodka. Istraivanje treba odrediti
jakost te veze. Pretpostavka je da je teorija tona sve dok podaci ne potvrde drugi tip veze.
Takva bi bila pretpostavka: istraiva eli biti 95% siguran da su teorijske spoznaje tone ili
sto je isto eli biti 95% sigurni da je nul hipoteza tona (odnosno 5% sigurni da se nul
hipoteza moe odbaciti).
Nain izraunavanja vjerojatnosti da se nul hipoteza moe odbaciti je prikazan ranije.
Potrebno je izraunati standardizirane z ili t vrijednosti iz uzorka i komparirati ih s
izraunatim z ili t vrijednostima prikazanih u obliku tablice.
6.11. 1. R'9('1/&, 2(/6&'*76 'K)'-,
Linearna regresija omogucuje pronaci vezu izmedu dvije varijable ako su njihove veze
linearne. Opci oblik linerne funkcije je
Y = bo + b1*X + e gdje je:
211
Y ovisna varijabla,
X neovisna varijabla,
bo odsjeak na Y osi kada je X=0,
b1 koeficijent smjera linearne funkcije i mjeri za koliko ce se promijeniti Y kada se
X
promijeni za 1.
P(/6&'(
Istraiva se veza izmedu potrosnje i dohodka. Prikupljeni su podaci i njih prikazuje slijedeca
tablica:
D7A7.,5
GSH
96 120 144 168 192 216 240 264 288 312
P7+(73*&,
GTH
61 72 87 88 112 121 132 149 151 165
66 77 92 102 118 127 150 151 160 167
72 81 99 105 121 132 154 154 171 193
77 88 103 113 128 143 158 167 182 196
83 94 108 119 130 149 160 173 193 198
97 124 138 154 176 208 204
127 178 210
$5>2*7 361 510 491 778 748 827 756 1148 1066 1333
Tablica 11.1. Mjeseni dohodak (X) kucanstava i potrosnja (Y)
Pretpostavka je da se cijela populacija sastoji samo od 60 kucanstava iz kojih se bira deset
skupina. Kucanstva u istoj skupini imaju priblino jednak dohodak. Tablica se moe
interpretirati na slijedeci nain: na temelju mjesenog dohodka od 96 novanih jedinica
postoji pet obitelji ija se mjesena potrosnja nalazi u intervalu od 61 do 83 novane
jedinice. Za dohodak 312 novanih jedinica sest je obitelji ija je potrosnja u intervalu od
165 do 210 novanih jedinica.
Na temelju tih podataka se mogu izraunati i uvjetne vjerojatnosti ) 2 : M 1 p
i
. To je
vjerojatnost da ce potrosnja biti Y ako je dohodak X. Npr. ako je dohodak 96 onda postoji
pet vrijednosti potrosnje (Y vrijednosti) 61, 66, 72, 77 i 83. Zato, ako je X=96, onda je
vjerojatnost da ce se dobiti bilo koja od tih pet vrijednosti potrosnje 1/5. Simboliki
5
1
) 80 2 : 62 M 1 p .
Sada se moe izraunati i tablica uvjetnih vjerojatnosti:
D7A7.,5
GSH
96 120 144 168 192 216 240 264 288 312
$;&'+*,
;&'(7&,+*7
1+ 2GTUS/H
1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7
1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7
1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7
1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7
1/5 1/6 1/5 1/7 1/6 1/6 1/5 1/7 1/6 1/7
1/6 1/7 1/6 1/6 1/7 1/6 1/7
1/7 1/7 1/7
$;&'+*,
1('./*, ?,
T
710
8
1010
8
970
8
1550
6
1490
4
1650
2
1500
8
2290
6
2130
0
26606
Tablica 11.2. Uvjetne vjerojatnosti za ) 2 : M 1 p
i
iz tablice 11.1.
212
Oekivana vrijednost potrosnje za dohodak X=96 novanih jedinica je: 61* (1/5) +
66*(1/5) + 72 * (1/5) + 77* (1/5) + 83 * (1/5) =71,8 novanih jedinica. Oekivane
vrijednosti potrosnje za odgovarajacue dohodke su prikazane u donjem retku tablice 11.2.
Primjena Excela za analizu regresije ce se prikazati u koracima:
1. Izabrati iz glavnog izbornika: Tools, Data Analysis, Regression:
2. $*/&'+/ podatke za ovisnu varijablu Y (Y Range: raspon celija u kojima se nalaze
podaci za potrosnju je: $A$37:$A$47), podatke za neovisnu varijablu X ( X Range:
raspon celija u kojima se nalaze podaci za dohodak $B$38:$B$47) je:
213
3. Pravac regresije koji prikazuje vezu izmedu potrosnje i dohodka se odmah generira:
Slika 11.1. Pravac regresije
214
Taj dio regresijske analize je najvaniji. On prikazuje vezu izmedu dohodka i potrosnje u
obliku linearne funkcije. Mogu se analizirati i procjenjivati promjene u potrosnji u ovisnosti
o promjenama dohodka. Iz opceg oblika jednadbe regresije:Y = b0 + b1* X dobiva se oblik
u kojem su poznati koeficijenti b0 i b1:
Y(potrosnja) = 0,8061* X (dohodak) - 4,2764
Naravno, to su samo procjene. Vidljive su i pogreske koje nastaju ako se primjeni takva
linearna funkcija:
RESIDUAL OUTPUT
Observatio
n Predicted Y Residuals
1 73,10545455
-
1,305454545
2 92,45090909 9,349090909
3 111,7963636
-
13,99636364
4 131,1418182 24,45818182
5 150,4872727
-
1,087272727
6 169,8327273
-
4,632727273
7 189,1781818
-
38,37818182
8 208,5236364 21,07636364
9 227,8690909
-
14,86909091
10 247,2145455 19,38545455
Naravno, potrebno je provesti i testiranje ili spoznati utjee li varijabla X (dohodak)
znaajno na varijablu Y (potrosnju). Takvo testiranje ce se temeljiti na t-testu jer je broj
jedinica u uzorku manji od 30. Excel pretpostavlja da su svi koeficijenti jednaki nuli
odnosno postavlja nul hipotezu. Kritina vrijednost za t-test ovisi o broju stupnjeva
slobode. Za razinu signifikantnosti od 10% kritina vrijednost za t je +/- 1.67, za razinu
signifikantnosti 5% kritina vrijednost za t je +/- 1.96. Izraunata kritina vrijednost za
odredenu razinu signifikantnosti od 95% je P-vrijednost u tablici 10.3.. Obino je zahtjev na
razini 90% (p vrijednost 0.1 ili manja) vjerojatnosti da smo sigurni o postojanju utvrdene
veze izmedu varijabli Y i X.
Coeffi
cients
Standard
Error
t Stat P-value Lower
95%
Upper
95%
Lower
95,0%
Upper
95,0%
Intercept -4,276 20,423 -0,209 0,839 -51,3738 42,820 -51,373 42,820
X 0,806 0,0948 8,499 2,8187E-05 0,58734 1,025 0,587 1,0248
Tablica 11.3. Dio analize regresije u Excelu
6.11.2. I*+'(2('+/(,*&' ('?>-+,+, .78/;'*/A ('9('1/&76
U regrsiji je potrebno uraditi dva testa jedan za koeficijent b0 a drugi za koeficijent b1. Nul
hipoteze su:
#0: b0 = 0
#0: b1 = 0
Nul hipoteza tvrdi da su oba koeficijenta jednaka 0. Potrebno je izraunati t vrijednosti na
temelju formule za t-test:
+<
0
%
1
2 2
1
) 2 1 2 n
) M )1 2 1 2M n
216
Multiple R 0,726
R SV>,(' 0,527
Adjusted R Square 0,422
Standard Error 1.280,231
Observations 12
R-Square je statistika koja pokazuje koliko varijance "Y" je objasnjeno u regresiji. U
primjeru je to oko 52,7%.
ANOVA
df SS MS F Significance F
Regression 2 16.462.590,261 8231295,131 5,022 0,034
Residual 9 14.750.924,655 1638991,628
Total 11 31.213.514,917
Sada se moe na temelju provedene analize regresije napisati ijednadba multiple regresije
koja prikazuje vezu izmedu prodanih koliina rua (Y), cijena rua X1 i cijena karanfila X2.
Ta jednadba multiple regresije je:
Y=10.594,038 - 3010* X1 + 1927,378 *X2
Potrebno je i analizirati koliki je utjecaj cijena rua i cijena karanfila na broj prodanih
komada rua u posljednje tri godine. Zato ce posluiti t-test. Nul hipoteza u test testu
pretpostavlja da su svi koeficijenti u multiploj regresiji jednaki nuli.
Stvarna kritina vrijednost za t-test ovisi o broju stupnjeva slobode. Za prihvacanje
pogreske od 10% t-vrijednost je +/- 1.67, dok za pogresku od 5% kritina vrijednost za t
je +/- 1.96.
U navedenom primjeru t-test za cijenu rua je -3,156 a t-test za cijenu karanfila je 1,399.
To znai da se moe odbaciti hipoteza da cijena rua ne utjee na prodanu koliinu na razini
signifikantnosti od 95% ali se ne moe odbaciti hipoteza da cijena karanfila ne utjee na
prodanu koliinu rua. Utjecaj cijena rua na prodanu koliinu je negativan a to znai veca
cijena smanjuje prodaju.
6. 12. ANALIZA KORELA"IJE
Korelacijska analiza je statistiko sredstvo koje slui za ispitivanje jakosti linerane veze
izmedu dvije varijable. Najesce se promatra zajedno s regresijskom analizom kako bi
izmjerila koliko linija regresije dobro opisuje stvarne podatke. Ipak, ona se moe uporabiti i
samostalno kako bi odredila smjer i intenzitet veze izmedu dvije varijable.
U analizi korelacije promatraju se dvodimenzijski statistiki skupovi. To su skupovi iji
elementi imaju dva obiljeja. Ta su obiljeja xi i yi, a mogu biti npr. visina i teina
studenata.
Korelacija ispituje povezanost izmedu ta dva obiljeja. Potrebno je utvrditi postoji li veza
izmedu obiljeja xi i yi (npr. manji student, manja teina). Neka su dani rezultati mjerenja
visine i %eNine s%udena%aL
Coefficients Standard
Error
t Stat P-value Lower
95%
Upper
95%
Intercept 10594,038 4119,425 2,572 0,030 1275,243 19912,833
Cijena ruza -3010,860 953,982 -3,156 0,012 -5168,918 -852,802
Cijena karanfila 1927,378 1377,246 1,399 0,195 -1188,170 5042,927
217
Red.
br.
Visina
(cm)
Teina
(kg)
1
182,0
0 75,00
2
184,0
0 77,00
3
196,0
0 85,00
4
163,0
0 60,00
5
188,0
0 85,00
6
176,0
0 72,00
7
181,0
0 74,00
8
182,0
0 81,00
9
169,0
0 55,00
10
176,0
0 77,00
11
167,0
0 63,00
12
179,0
0 71,00
13
185,0
0 78,00
14
189,0
0 86,00
Tablica 1.:Rezultati mjerenja visina i teina studenata
Ako se ele grafiki prikazati i interpretirati podaci iz tablice 1., vidljivo je da se itav skup
sastoji od * uredenih parova (xn, yn ) kojima se u dvodimenzijskom koordinatnom sustavu
mogu pridruiti toke (xi, yi). U tablici je n = 14 tj. 14 uredenih parova rasporedenih u 14
toaka. Skup tih toaka naziva se dijagram rasipanja, a prikazuje ga slijedeca slika:
Teina ! kg
50
55
60
65
70
75
80
85
90
95
100
160 180 200
Visina ! cm
218
+lika 12*1* 'ija-ra/ rasipanja
Vizualno se iz dijagrama rasipanja moe zakljuiti o vezi izmedu obiljeja xi, yi tj. jesu li
medusobno ovisna i kakav je smjer veze na temelju grupiranja toaka.
Ako se toke xi, yi nalaze uzdu pravca ili neke druge krivulje, onda postoji jaka veza
obiljeja xi, yi. To je funkcijska povezanost i moe se pronaci funkcija koja opisuje vezu
dva obiljeja u obliku y = f(x) i x = q (y). Slika 1 prikazuje jednu takvu vrstu vezu. Ako je
student visi, onda mu je i teina veca.
Ako su obiljeja nepovezana onda toke dijagrama rasprsenosti nemaju tendenciju
gomilanja, nego su one rasprsene. To prikazuje slika 2:
0
2
4
6
8
10
12
14
16
0 2 4 6 8 10 12 14
Slika 2.: Dijagram rasprsenosti kada ne postoji korelacija izmedu obiljeja
Dio statistike koja svojim postupcima omogucava analizu jakosti veza izmedu dva obiljeja
statistikog skupa, izmedu dvije varijable naziva se korelacija. Ona daje matematiki okvir
koji izraava povezanost izmedu obiljeja.
6.12.1. K7':/)/&'*+ 57('-,)/&'
Korelacijom se mogu odrediti varijacije obiljeja dvaju raspona podataka, tj. jesu li velike
vrijednosti jednog skupa pridruene velikim vrijednostima drugoga (pozitivna korelacija),
jesu li male vrijednosti jednog skupa pridruene velikim vrijednostima drugoga (negativna
korelacija) odnosno jesu li vrijednosti u oba skupa nepovezane (korelacija blizu 0).
Koeficijent korelacije r je mjera jakosti linearne veze izmedu dvije varijable x i y.
Izraunava se po formuli:
xx
x
!! !!
!!
r
,
gdje je:
n
i
i i x
x x !!
1
) )1 1
,
n
i
i xx
x x !!
1
2
) 1
,
2
1
) 1
n
i
i
!! ,
n
i
i
n
i
i
n
x
n
x
1 1
1
,
1
,
Bitna svojstva koeficijenta korelacije su:
a) -1 ( 1,
) koeficijent korelacije ( i nagib pravca regresije b1 imaju isti predznak,
219
c) ako je vrijednost koeficijenta korelacije r blizu nule ili jednaka nuli, to znai da je
veza izmedu varijabli x i y slaba ili ne postoji. to je vrijednost koeficijenta korelacije
blia ili jednaka 1 ili -1, to je veza izmedu varijabli x i y jaa.
Vrijednosti varijabli x i y mogu biti elementi uzorka ili cijele populacije. Koeficijent korelacije
populacije se oznaava s (ro). Koeficijet korelacije populacije se procjenjuje na temelju
istog pokazatelja uzorka. Umjesto procjene koeficijenta mogu se testirati nul I
alternativna hipoteza:
H0: = 0 (testirati hipotezu da vrijednosti varijable x ne sadre informacije koje mogu
posluiti za prognozu varijable y uporabom linearne funkcije, tj.pravca).
Ha: 0, i.e., (dvije varijable su najmanje linearno povezane)
Moe se pokazati da je nul hipoteza H0: = 0 ekvivalentna hipotezi H0: B = 0.
6.12.2. K7':/)/&'*+ .'+'(6/*,)/&'
Drugi pristup u mjerenju doprinosa varijable x u procjeni y oslanja se na pogreske u
procjeni varijable y. Nastoji odrediti koliko se pogreska moe smanjiti uporabom
informacija sadranih u varijabli x. Koeficijent determinacije uzorka derivira se iz odnosa
izmedu dva oblika odstupanja:
a: odstupanje stvarnih vrijednosti y oko linije regresije tj. oko procjenjenih vrijednosti.
To odstupanje je zbroj kvadrata odstupanja stvarnih vrijednosti varijable yi od
procjenjenih vrijednosti
i
OE
46
u regresijskom modelu:
2
1
) E 1
n
i
i i
!!E .
b) drugo odstupanje je varijacija vrijednosti stvarnih vrijednosti varijable y oko njene
aritmetike sredine
2
1
) 1
n
i
i
!! .
Koeficijent determinacije se izraunava po formuli
!!
!!E !!
. Moe se pokazati da je
!!
!!E
!!
!!E !!
r
1
2
, gdje je r koeficijent korelacije. Kvadrat koeficijenta korelacije
se naziva koeficijent determinacije. Koeficijent determinacije se moe objasniti kao
odstupanje stvarnih vrijednosti varijable y od procjenjenih vrijednsti na temelju pravca
regresije. Znaenje i objasnjenje koeficijenta determinacije r
2
jasno prikazuje slijedeca
slika:
46
Ta se veliina oznaava sa SSE a sto je kratica engleskih rijei sum of squares errors.
220
S-/5, 3.I Objasnjeno i neobjasnjeno odstupanje
Odstupanje stvarnih vrijednosti varijable yi od sredine je O O
i
, neobjasnjeno odstupanje
pravcem regresije je OE O
i
i objasnjeno odstupanje je O OE
i
. Ukupno odstupanje
promatra zbroj svih kvadrata odstupanja pojedinanih vrijednosti varijable y od njene
aritmetike sredine:
2
1
) 1
n
i
i
!! . Neobjasnjeni dio ukupnih odstupanja stavrnih
vrijednosti varijable y od pravca regresije je:
2
1
) E 1
n
i
i i
!!E
.
Objasnjeni dio ukupnih odstupanja je
2
1
) E 1
n
i
i
. Kratko se moe zapisati:
Ukupno odstupanje O Objasnjeno odstupanje + neobjasnjeno odstupanje. Koeficijent
determinacije je odnos izmedu objasnjenog odstupanja i ukupnog odstupanja:
ods%upanje ukupno
ods%upanje oja8njeno
r
2
.
Koeficijent determinacije u praktinom smislu znai koliko od ukupnih odstupanja stvarnih
vrijednosti varijable y od srednje vrijednosti se moe objasniti uporabom varijable x u
prognozi varijable y, ako se primjeni model linearni model regresije.
P(/6&'( 1
U modelu linearne regresije prikazana je veza izmedu dohodka i potrosnje u obliku linearne
funkcije. Mogu se analizirati i procjenjivati promjene u potrosnji u ovisnosti o promjenama
dohodka. Iz opceg oblika jednadbe regresije:Y = b0 + b1* X cobia se oblik u kojem su
poznati koeficijenti b0 i b1: Y(potrosnja) = 0,8061* X (dohodak) - 4,2764
Naravno, to su samo procjene. Vidljive su i pogreske koje nastaju ako se primjeni takva
linearna funkcija:
$<+J'!9P ,!KP!K
Obser"atio
n Predi#ted $ %esidua&s
1
73,1054545
5
@
1,305454545
2
92,4509090
9 9,349090909
3
111,796363
6
@
13,99636364
4
131,141818
2 24,45818182
5
150,487272
7
@
1,087272727
6
169,832727
3
@
4,632727273
7
189,178181
8
@
38,37818182
8
208,523636
4 21,07636364
9 227,869090 @
221
9 14,86909091
10
247,214545
5 19,38545455
Koeficijent korelacije se u Excelu izraunava tako sto se izabere iz izbormika Data Analysis
i zatim odabere raspon celija za koje se izraunava korelacija. Rezultat prikazuje slijedeca
tablica:
Dohodak (X) Potronja (Y)
Dohodak (X) 1
Potrosnja (Y) 0,9488 1
Tablica 3.: Koeficijent korelacije (
Koeficijent determinacije je r
2
= 0,90. Ta se vrijednost moe protumaiti: dohodak X u
jednadbi regresije Y(potrosnja) = 0,8061* X (dohodak) - 4,2764 u procjeni potrosnje Y,
rauna priblino 90% ukupnih kvadrata odstupanja od srednje vrijednosti. To znai da se
smanjuje za 90% pogreska u procjeni potrosnje ako se uporabi jednada regresije umjesto
prosjene potrosnje
M
.
Prvo ce se prikazati postupak izraunavanja kovarijance.
6.12. 3. I?(,4>*,;,*&' 57;,(/&,*)'
Drugi pristup u definiranju i pojasnjenju korelacije je uporaba kovarijance. Kovarijanca
izraunava prosjek umnoska ukupnih odstupanja dva skupa podataka podataka od njihovih
srednjih vrijednosti. Kovarijanca mjeri odnose izmedu dva niza podataka. U matematikom
smislu ona je prosjek umnoaka odstupanja svakog para toaka ili podataka od
odgovarajucih aritmetikih sredina. Kovarijanca populacijue rabi formulu
) O 1O 4 ) 0 10
n
1
M) cov12,
i
n
1 i
i
2
n
1 i
i
2
O
) O O
n
1
Kovarijanca se povecava ako se jakost veza izmedu x i y povecava. Jaka veza izmedu x i y
ce vrijednost koeficijenta korelacije pribliiti +1 ili -1.
223
7. PRIMJENA IN!ORMA"IJSKE TE#NOLOGIJE $ PRO"ES$ ISTRAIVANJA
Informacija se u informacijskom dobu prihvaca kao univerzalna injenica, potrebna i
prisutna u svim vidovima ljudskog organiziranja i djelovanja. Posebnu vanost i vrijednost
ima informacija odaslana ili raspoloiva u pravo vrijeme. Pouzdane, relevantne i
pravodobne informacije su u informatikom smislu izlazi iz procesa istraivanja. Te
informacije se u obliku modela, teorija i zakonitosti prezentiraju na kraju procesa
znanstvenog istraivanja. Danas su u uporabi razliite informacijske tehnologije i softverski
alati koji mogu ubrzati procese istraivanja i detektirati veze, odnose, pravilnosti i
zakonitosti koje postoje u prikupljenim podacima. Zato se koncentrira pozornost na
organizaciju podataka iz kojih slijede informacije. Razvoj mocnih osobnih raunala i njihovih
mrea postavio je zadatak razumijevanja organizacije i strukture baze podataka.
Kompleksnost znanstvenog istraivanja i uporabe informacija u informacijskom dobu ima
pretpostavku razumijevanja pojmova kao sto su datoteka, baza podataka, sustav za
upravljanje bazama podataka, model podataka i drugih pojmova potrebnih za kreiranje,
pretraivanje i manipulaciju podacima. Razumijevanje tih pojmova olaksava aktivnosti
prikupljanja, obrade, analize i prezentiranja rezultata istraivanja. Ta znanja danas postaju
sve vise zahtjev i uvjet djelotvornosti procesa istraivanja.
7.1 PRO"ESI OTKRIVANJA ZNANJA $ %AZAMA PODATAKA
Danas se u analitike svrhe grade posebne baze podataka koje se razlikuju od baza
podataka koje slue u aktivnostima prikupljanja podataka. Razvoj mocnih procesora i
proizvodnja memorija ogromnih kapaciteta stvorili su preduvjete da se u procesu
istraivanja obuhvacaju sve jedinice statistikog skupa tj. populacija. Jednostavne analize
se mogu dobiti postavljanjem upita, a odgovor na njih slijedi nakon pretraivanja baza
podataka. To su najesce podaci koji odraavaju promjene odredenih veliina u vremenu
(trendove).
Tehnologije na kojima se temelji obrada transakcija i analitika obrada, razliite su
tehnologije i ne mogu se sluiti istim podacima u bazama podataka. To se posebno odnosi
na istraivanja u poslovnom procesu. Rjesenje je zato pronadeno u skladistu podataka
(Data Warehouse). Ono sadri potrebne podatke za izgradnju sustava za potporu analizi
podataka u procesu istraivanja. Veza izmedu operativnih baza podataka (baze podataka za
obradu transakcija u realnom vremenu) i skladista podataka prikazana je sljedecom
slikom:
224
.............................
..................................
........................
..................................
......
Operativne baze
(interni podaci)
Operativne baze
(interni podaci)
Skladite
podataka
Skladite
podataka
Vanjski izvori
podataka
Vanjski izvori
podataka
Analitike obrade (OLTP) Analitike obrade (OLTP)
Sustavi za potporu Sustavi za potporu
odluivanju odluivanju
Data mining Data mining
13.1. Punjenje skladita podataka (poetno i periodino)
Skladista podataka su predmetno orijentirani, integrirani, vremenski nepromjenjivi i samo
za itanje pohranjeni podaci u funkciji potpore istraivanjima.
47
Podaci u skladistima
podataka temelj su analize podataka. Skladiste podataka periodino se puni podacima.
Takvi se podaci prethodno moraju oistiti od nekozinstentnosti koja esto prati podatke jer
se oni formiraju iz razliitih izvora. Izgradnja skladista podataka logina je posljedica
postojanja dva tipa podataka u procesu istraivanja:
a) primitivnih (operativnih)
b) izvedenih (deriviranih).
Operativni podaci su oni koji se prate i generiraju svakodnevno u procesu istraivanja.
Derivirani podaci rezultat su unaprijed planirane i izvedene transformacije primitivnih
podataka. Ona moe biti jednostavna matematika operacija zbrajanja ili neka druga
operacija kojom se kreiraju podaci u svrhu zadovoljenja potreba istraivanja. Danas je
prihvaceno glediste da unutar iste baze podataka ne mogu biti pohranjeni primitivni i
derivirani podaci. Njihovo razdvajanje temelj je kreiranja skladista podataka.
48
Proces istraivanja poinje prikupljanjem podataka. To mogu biti ogromne koliine
transakcijskih (primarnih) podataka u operativnim bazama. Cilj istraivanja nije prikupiti i
pohraniti ogromna koliina podataka, nego provjeriti hipoteze i otkriti zakonitosti. Cilj je
ekstrahirati informacije iz tih podataka.
Podaci su esto suma iz koje se ne mogu izvoditi jednostavno valjani i prihvatljivi zakljuci.
Zato znanstvenici, tragajuci za odgovorom, kreiraju nove tehnologije za potporu izvodenja
ispravnih i valjanih zakljuaka iz takvih ogromnih koliina podataka. Analize procesa
istraivanja pokazuju da se svega 10% vremena u procesu istraivanja trosi na analizu
podataka. Ostale faze istraivanja zauzimaju znantno vise vremena iako je analiza jedna od
najbitnijih faza istraivanja. Potrebno je ponekad analizirati podatke koji se mjere u
gigabajtima i terabajtima. Takvi primarni podaci ne daju jasan odgovor zasto se nesto zbiva
niti dijagnosticiraju procese i promjene, ne interpretiraju rezultate niti klasificiraju podatke,
ne odreduju klastere niti modeliraju ovisnosti medu podacima, ne otkrivaju promjene i
odstupanja u odnosu na postavljene ciljeve niti odreduju korelaciju izmedu podataka itd.
Davanje odgovora na spomenuta pitanja uporabom odgovarajucih softverskih alata,
temeljna je zadaca informacijske tehnologije u procesu istraivanja. Na slici 13.2. prikazana
je veza izmedu razliitih softverskih alata u procesu istraivanja. U fazi prikupljanja
podataka podaci se modeliraju u skladu s zahtjevima modela podataka: Najesce je to to
relacijski model podataka u kojem su podaci u obliku relacijskih tablica ili objektno
orijentirani model u kojem su klase i njihova svojstva u sredistu modela podataka.
Istraivau trebaju podaci u obliku koji se razlikuje od onog u relacijskoj bazi podataka.
Npr. esto se u ekonomskim istraivanjima ele dobiti informacije o ukupnim troskovima
po mjesecu, relativnoj promjeni troskova u tekucem u odnosu na isto razdoblje prethodne
godine, struktura troskova, prosjenim troskove po mjesecu itd. Takve informacije nisu
izravno vidljive nakon prikupljanja podataka. Zato se podaci moraju u procesu istraivanja
oistiti, transformirati i integrirati u oblik pogodan za analizu. Takav model podataka
pogodan za analizu danas su skladista podataka. Srednji i gornji slojevi na slici 13.2.
predstavljaju analitike alate koji obuhvacaju otkrivanje znanja u bazama podataka
(Knowledge Discovery in Databases - KDD), modele znanosti o upravljanju, operacijskih
istraivanja (operational research models) i razliite statistike tehnike. Dio procesa
otkrivanja znanja u bazama podataka i skladistima podataka danas se nazivaju jednim
imenom algoritmi za rudarenje podacima, svrdlanje podataka ili algoritmi za traganje kroz
podatke.
47
W.H Inmon, Building the data warehouse.
48
Detaljnije vidjeti u knjizi W.H Inmon, Building the Data Warehouse i lanak
B. Markic, D. Tomic, Skladite podataka kao preduvjet za uspjenu raunalnu podrku upravljanju,
Proceedings of 1st international Conference Business system Management UPS 97, Mostar.
225
Slika @=#E# So'tverski alati u (rocesu istraivanja
To je dobro poznati istraivaki proces u kojem se podaci prikupljaju (prikupljaju se iz
razliitih izvora, zatim filtriraju, proiscavaju, transformiraju, konsolidiraju i pune u
skladista podataka), analiziraju, i transformiraju u informacije, a zatim dalje u znanje. U
tom procesu uspostavlja se dobro poznati lanac vrijednosti informacija (information value
chain) u kojem se podaci prikupljaju i pohranjuju u baze podataka i transferiraju u
analitike baze (multidimenzijske baze i skladista podataka). Analitike baze pohranjuju
podatke u obliku koji je prihvatljiv za dalja poboljsanja i analizu. Ti podaci tako zavrsavaju
kao informacije. Kljunu i vitalnu ulogu u tom procesu ima OLAP (On Line Analytical
Processing) - multidimenzijske baze podataka zato sto osiguravaju istraivau izravnu vezu
s podacima (multidimenzijskim podacima) i modelima (znanost o upravljanju, operacijska
istraivanja ili statistiki modeli). Cesto se postavlja pitanje u kakvom odnosu stoje OLAP i
algoritmi za traganje kroz podatke (data mining). Odgovor je da su to razliiti, ali
komplementarni alati. OLAP je dio sireg skupa alata za potporu istraivanju. Tradicionalni
alati za upite i izvjesce, kao dio softverskih alata za analizu podataka, opisuju sto je
pohranjeno u bazi podataka. OLAP ide dalje. On postavlja za pronalaenje odgovora i
dodatno pitanje: Zasto su odredene hipoteze istinite.
Korisnik mora formirati hipotezu o mogucim odnosima izmedu odredenih kategorija,
objekata ili atributa unutar baze podataka ili skladista podataka i provjeriti takve odnose
serijom upita nad podacima. Npr. istraiva eli utvrditi faktore koji determiniraju
nevracanje kredita, danog komitentima neke poslovne banke. On moe pretpostaviti da su
kreditno rizini korisnici kredita s manjim dohotkom i analizirati, uporabom OLAP alata,
bazu podataka kako bi dokazao istinitost hipoteze ili hipotezu odbacio. Drugim rijeima,
OLAP analitiar (istraiva) postavlja hipotezu i upucuje upite prema bazi podataka da bi
hipotezu prihvatio ili odbacio.
226
"i#$enje %odataka
&k'adi#te %odataka
(data (are)o!se)
*odaci re'evantni +a ana'i+!
&e'ekcija
,ata mining
a'goritmi
-akonitosti.
%ravi'nosti
/ntegracija %odataka
0a+a %odataka
Ako se broj analiziranih varijabli povecava na stotine ili tisuce, onda je gotovo
nemoguce pronaci dobru hipotezu i analizirati bazu podataka s OLAP-om. OLAP pokazuje
ogranienja. Ne moe se djelotvorno uporabiti jer je tesko pronaci hipotezu o odnosima
izmedu polja unutar relacijske tablice. Alati za traganje kroz podatke (data mining) iz
podataka u bazi podataka otkrivaju pravilnosti i veze (patterne), zakonitosti, umjesto da
provjeravaju istinitost hipoteza. Istraiva koji eli identificirati rizine imbenike za
nevracanje zajma (kredita), slue se data mining alatima. Alati data mininga otkrivaju
korisnike s visokim dugom i malim dohotkom, ali analiza moe otkriti i nove imbenike o
kojima istraiva nije razmisljao. Upravo ta injenica ini OLAP i data mining alate
komplementarnim.
7.2. DANA MINING ALATI $ PRO"E$ OTKRIVANJA ZNANJA $ %AZAMA PODATAKA
S informatikog gledista najvaniji dio softvera za analizu podataka su alati za otkrivanje
znanja u bazama podataka. U suvremeno doba taj pojam
49
ukljuuje:
c) traganje kroz podatke (data mining)
d) integraciju sustava temeljenih na znanju i statistikih metoda
e) metode strojnog uenja
f) metode za otkrivanje veza medu podacima ( asocijativna pravila, algoritmi indukcije
i sl.)
g) integraciju sustava temeljenih na znanju i objektno orijentiranih sustava
h) interpretaciju otkrivenog znanja i pravilnosti
i) evaluaciju otkrivenog znanja itd.
Discipline izravno povezane s KDD-om su baze podataka, ekspertni sustavi, agenti za
pretraivanje, statistika, strojno uenje, skladista podataka, OLAP alati. Otkrivanje znanja
je proces ekstrakcije informacija iz podataka, proces analize koji zavrsava generiranjem
uporabljivih, pouzdanih, relevantnih i prethodno nepoznatih informacija. Informacije se
prezentiraju u obliku pravilnosti, zakonitosti ili jednostavno patterna razumljivog korisniku.
Pattern se definira kao iskaz (E) u jeziku (La) o odnosima izmedu podskupa podataka (Sp) i
njegova skupa S. Iskaz (E) nije potpuno siguran (izvjestan) i uvijek se povezuje s
odredenim stupnjem neizvjesnosti i nesigurnosti pojave. Taj se stupanj izvjesnosti
(povjerenja) oznaava sa c. Pattern se mora izraziti jasnim i jednostavnim jezikom, a
najesce je u obliku pravila oblika Ako...Onda.
Npr. Ako je likvidnost mala, Onda je uzrok nenaplacena potraivanja od kupaca
(c=0.8). Ti patterni mogu biti ulazi u bazu znanja nekog ekspertnog sustava. Otkriveno
znanje predstavlja tako izlaz iz programa koji pretrauje, provherava i analizira podatke u
bazama ili skladistima podataka. U tim postupcima analize generiraju se patterni. Znanje
predoeno u obliku patterna ovisi o kvaliteti analiziranih podataka i mora sadravati
dovoljnu razinu izvjesnosti (povjerenja) koju definira korisnik. Bez dostizanja razine
izvjesnosti definirane od strane korisnika pattern ne predstavlja znanje. Pattern, osim
izvjesnosti, mora sadravati i neka dodatna svojstva kao sto su: netrivijalnost (znai da
pattern nije jednostavno izvodljiv iz podataka), mora predstavljati novost za korisnika
(mora biti do tada korisniku nepoznat, tj. nov), koristan i primjenjiv (pattern kojim se
izraava znanje mora biti primjenjiv i pomoci korisniku u rjesavanju zadaca). Proces
istraivanja i otkrivanja pravilnosti, zakonitosti, prihvacanja ili odbijanja hipoteza temelji se
na algoritmima odredene sloenosti, poev od matematikih i statistikih do heuristikih.
Okolinu procesa istraivanja u ijem sredistu su algoritmi data mininga ine baza podataka i
skladista podataka, rjenik podataka, domenska znanja o problemu, statistika, strojno
uenje Interakcija tih elemenata prikazana je na sljedecoj slici.
49
Pojam KDD esto se povezuje i s drugim nazivima kao sto su arheologija podataka (data
archeology), etva informacija (information harvesting), obrada patterna (pattern processing),
traganje (svrdlanje) kroz podatke (data mining), ekstarkcija znanja (data extraction)...
227
Slika @=#?#Ltjecaj razli.itih disci(lina na (roces istraivanja
Podaci u bazama podataka su dinamiki. Mijenjaju se u vremenu za razliku od skladista
podataka koje predstavlja vremenski ovisne, ali nepromjenjive i predmetno orijentirane
podatke. U dinamikom smislu istraivanje se moe opisati nizom medusobno povezanih i
ovisnih aktivnosti. Te aktivnosti otkrivaju najbitnije aspekte i mogucnosti primjene
informacijske tehnologije u procesu istraivanja. Prva je selekcija podataka, a zatim njihovo
filtriranje i proiscavanje. Rezultat selekcije su ciljni podaci koji se moraju dodatno
transformirati kako bi mogli primijeniti algoritme traganja kroz podatke. Takav
sekvencijalan niz aktivnosti s povratnim vezama prikazan je na slici 13.4.
Slika 13.4. Aktivnosti procesa otkrivanja znanja u bazama podataka kao dio procesa
istraivanja
Prva aktivnost zove se selekcija (izbor) podataka. Rezultat selekcije ciljni su podaci koji se
selektiraju iz skladista podataka ili iz baza podataka. Ti podaci najesce su u obliku tablica
relacijskog modela. Selekcija se koncentrira na podskup podataka neke baze podataka, a
taj podskup je bitan za proces KDD-a. Naravno, to nije jednostavna aktivnost. Ona
228
Data inin!
Database
sustavi
Statistika
Dru!e
discipline
Al!orit"i
Strojno
uenje
Vizualizacija
Proiscavanje
Proiscavanje
Selekcija
Selekcija
Selekcija
podataka
Skladiste
podataka
Skladiste
podataka
Baza
podataka
Baza
podataka
!/-+(/(,*&'
!/-+(/(,*&'
Pattern
Pattern
Filtriranje
podataka
Proiscavanje
podataka
Algoritam
data mininga
Ocjena i
interpretiranje
Zakonitosti,
znanja,
prihvacanje
hipoteza,
odbijanje hipoteza
pretpostavlja jasno postavljene i definirane ciljeve istraivanja. Filtriranje, a nakon njega i
proiscavanje podataka, ima za cilj ukloniti potencijalnu inkonzistenciju (neaurnost)
podataka, a na koje ce se primijeniti algoritam za rudarenje podacima (data mining). Izbor
algoritma ovisit ce o ciljevima istraivanja, o postavljenom zadatku. Postavljeni zadatak
moe biti klasifikacija, modeliranje ovisnosti, otkrivanje promjene ili odstupanja u odnosu
na postavljeni cilj, odredivanje klastera.
Klasifikacija oznaava pripadnost podataka (slogova) nekoj unaprijed odredenoj
klasi. Modeliranje ovisnosti oznaava opisivanje ovisnosti izmedu podataka. Ovisnost postoji
ako se moe prognozirati promjena jednog podatka u ovisnosti o promjeni drugog podatka
ili formalno B 9 . Promjene ili odstupanja mjere se uvijek u odnosu na neku ciljnu
veliinu. Odredivanje klastera postupak je formiranja klasa na temelju podataka. Razlika
izmedu klasifikacije i klasteriranja je u tome sto kod klasteriranja klase nisu unaprijed
poznate. Jedino je poznat broj klastera. Izbor metoda otkrivanja patterna je kritian korak.
Algoritam mora biti u skladu s ciljevima istraivanja. Drugim rijeima, uporabljene metode i
tehnike istraivanja moraju biti uskladene s ciljevima istraivanja. Patterni su izlazi iz
algoritma ili modela i najesce opisuju relacije izmedu vise atributa (polja). Tako mogu
prikazivati trendove ili identificirati klastere. Patterni mogu biti kvalitativni ili kvantitativni.
Kvalitativni opisuju logike operacije izmedu polja, a kvantitativni matematike jednadbe
izmedu polja (atributa).
Interpretacija i evaluacija patterna oznaava tumaenje korisniku otkrivenih patterna i
njihov prikaz u skladu s korisnikovim zahtjevima. U procesu generiranja patterna esto se
mora vracati na prethodne korake te se pojedini patterni mogu zanemarivati i eliminirati
kao nebitni. Otkriveno znanje predoava se u ovisnosti o njegovoj namjeni. Covjek znanje
najbolje razumije ako je prikazano u obliku ljudskoga jezika, grafike, slika ili formalne
logike. Znanje dobiveno u tom procesu moe sluiti u drugoj okolini kao sto je ekspertni
sustav.
Patterni su uvijek povezani s odredenim stupnjem vjerojatnosti te se za otkriveno
znanje mora predstaviti i odreden stupanj neizvjesnosti. Baze podataka i skladista podataka
najesce imaju dovoljno podataka da se neizvjesnost moe odrediti statistiki.
Probabilistike metode uvijek se temelje na dva koraka. U prvom koraku znanje se
primjenjuje na sve podatke u bazi, a u drugom koraku identificira se broj uspjeha i
neuspjeha. Odnos broja uspjeha i neuspjeha odreduje vjerojatnost. Neizvjesnost se moe
prikazati i vizualnim pokazateljima (npr. osjenena i neosjenena povrsina) ili pomocu
lingvistikih varijabli (fuzzy sets).
7.3. PRIMJER ANALIZE $POTRE%OM DANA MINING ALATA
Algoritmi za traganje kroz podatke (data minig algoritmi) konani su nizovi koraka koji
pronalaze patterne iz podataka. Ti algoritmi identificiraju pattern i prave njegov opis. To su
algoritmi koji nisu samo specifini za data mining, nego se preuzimaju i adaptiraju iz drugih
disciplina (npr. statistike). Patterni se mogu prikazivati i opisivati pravilima oblika
Ako...Onda, stablima odluivanja, neuronskim mreama, genetikim algoritmima,
statistikim metodama, linearnim i nelinearnim modelima. Ipak, jos uvijek ne postoji
univerzalno dobar i prihvatljiv algoritam za traganje kroz podatke. Radi ilustracije
algoritama data mininga slijedi algoritam apriori.
7.3.1. A-97(/+,6 ,2(/7(/
Svrha algoritma apriori pronalaenje je asocijativnih pravila. To su pravila oblika B 9 .
Algoritam apriori, preveden na relacijske baze podataka, izraava tvrdnju da slog koji sadri
skup elemenata A sadri i skup elemenata B, uz uvjet da je njihov presjek prazan skup
B 9 . Za asocijativna pravila vezuju se initelji povjerenja i potpore. Cinitelj
povjerenja c predstavlja postotak onih slogova koji kada sadre A sadre i B. Semantiko
znaenje initelja povjerenja je jaina implikacije A B. Cinitelj potpore s oznaava
postotak slogova u bazi koji sadre AB. Pravila s visokim stupnjem povjerenja i potpore
zovu se jaka asocijativna pravila. Npr. dano je sljedece pravilo oblika Ako...Onda:
Ako se kupuje proizvod A Onda se kupuje i proizvod B.
229
Cinitelj povjerenja oznaava za koji postotak slogova, od ukupnog broja slogova, je
navedeno pravilo istinito. Faktor povjerenja 60% znai da 60 od stotinu kupaca kada
kupuje raunalo, kupuje i modem.
Cinitelj potpore oznaava koliko se slogova, od ukupnog broja slogova u tablici, moe
primijeniti za verifikaciju pravila. Npr., initelj potpore od 2% znai da su dvije od stotinu
prodaja prodaje osobnog raunala zajedno s modemom.
Pravila s visokim stupnjem povjerenja i potpore zovu se jaka asocijativna pravila. Algoritam
apriori primjenjuje se za otkrivanje jakih skupova elemenata. Jaki skupovi elemenata su
skupovi asociranih elemenata sa stupnjem potpore s iznad neke unaprijed zadane
vrijednosti. Drugi vaan pojam tog algoritma je nadovezivanje skupova koji se oznaavaju
operatorom . Za skupove skupova od jednog elementa S1S2 = {k, l, m} {k, l, m}=
{kl, km, lm}. Bit algoritma apriori prikazuje sljedeci primjer.
Prikupljeni su podaci o transakcijama i proizvodima kupljeni u tim transakcijama. Podaci o
proizvodima i transakcijama zabiljeeni su u relacijskim tablicama ali se za potrebe analize
ti podaci prikazuju u oblikudvodimenzijske pivot tablice. Stupci u toj tablici su proizvodi
kojise kupuju u transakcijama a retci su transakcije. Na presjeku retka i stupca je upisana
0 ili 1. Nula znai da se u toj transakciji ne kupuje oderedeni proizvod a 1 da se proizvod
kupuje.
P(7/?;7./
IDQT(,*1,5)/&'
A B C D E
T1 1 1 1 0 0
T2 1 1 1 1 1
T3 1 0 1 1 0
T4 1 0 1 1 1
T5 1 1 1 1 0
Tablica 13.4. Podaci o transakcijama i proizvodima
Mining asocijativnih pravila ini dva koraka:
1. Otkriti skup podataka (skup proizvoda u transakcijama) ija je potpora iznad
unaprijed odredene minimalne potpore s.
2. Uporabiti taj skup podataka za generiranje asocijativnih pravila s faktorom
povjerenja ).
Zadatak je analizirati primjenom algoritma apriori uz faktor potpore s=40% i faktor
povjerenja od 80% koji su proizvodi povezani u prodaji? Prikazati sve korake algoritma
apriori.
Prvi korak izvrsavanja algoritma je generiranje skupa kandidata od po jednog elementa
(skup C1).
Skup C1
X 27+27(,GSH
A ?
B ?
C ?
D ?
E ?
230
Drugi korak je generiranje skupa jakih skupova od po jednog elementa (skup L1).
Treci korak je pravljenje skupa skupova kandidata od po dva elementa pomocu L1L1 (skup
C2).
Skup L1
X potpora(X)
A 100%
B 60%
C 100%
D 80%
E 40%
Skup L2
X potpora(X)
A,B 60%
A,C 100%
A,D 80%
A,E 40%
B,C 60%
B,D 40%
B,E EBM
C,D 80%
C,E 40%
D,E 40%
Skup C2
X potpora(X)
A,B ?
A,C ?
A,D ?
A,E ?
B,C ?
B,D ?
B,E ?
C,D ?
C,E ?
D,E ?
Skup L2 nakon
eliminiranja
X potpora(X)
A,B 60%
A,C 100%
A,D 80%
A,E 40%
B,C 60%
B,D 40%
C,D 80%
C,E 40%
D,E 40%
231
Frekvencija za proizvode BE je 20% i manja je od faktora potpore 40%. Zato se u skupu
kandidata L2 eliminira skup BE.
Peti korak je generiranje skupa skupova kandidata od po tri elementa pomocu L2L2 (skup
C3). Povezuju se samo oni koji imaju prvi element zajedniki:
spojiti AB s AC A,B,C ?
spojiti AB s AD A,B,D ?
spojiti AB s AE A,B,E ?
spojiti AC s AD A,C,D ?
spojiti AC s AE A,C,E ?
spojiti AD s AE A,D,E ?
spojiti %C s %D B,C,D ?
spojiti "D s "E C,D,E ?
U slijedecem prolazu se moraju spariti po dva kandidata. Formira se skup skupova
kandidata po etiri proizvoda.
Skup C3
X 27+27(,GSH
A,B,C ?
A,B,D ?
A,B,E ?
A,C,D ?
A,C,E ?
A,D,E ?
B,C,D ?
C,D,E ?
Skup L3
X 27+27(,GSH
A,B,C 60%
A,B,D 40%
A,C,D 80%
A,C,E 40%
A,D,E 40%
B,C,D 40%
C,D,E 40%
232
Na temelju ovih tablica se moe provjeriti je li neko pravilo jako.
Na primjer: provjeriti hipotezu: Ako se kupuju proizvodi A i B Onda se kupuji proizvodi C i
D. Ta hipoteza se moe zapisati kao H0: C' 9B
Prvo je potrebno ispitati ispunjavaju li oba skupa {A,B} i {C,D}uvjet potpore s=40%.
Povjerenje ) se izraunava kao kolinik:
c = s{A,B,C,D}/s{A,B}. Hipoteza H0 se ne moe odbaciti ako je vrijednost faktora
povjerenja c veca od 80%. Pravilo koje zadovoljava te uvjete se naziva jako asocijativno
pravilo. Iz skupa L2 je vidljivo da je s{A,B}=60% a iz L4 je vidljivo da je s{A,B,C,D}=40%.
Sada se moe izraunati povjerenje u pravilo C' 9B :
c({A,B}{C,D}) =c=s {A,B,C,D} / s {A,B}=40/60=67%
Na temelju izraunate vrijednosti faktora povjerenja c=67% imamo dovoljno podataka da
moemo odbaciti nul hipotezu:
Ako se kupuju proizvodi Ai B Onda se kupuju i proizvodi C i D.
Ukratko, algoritam apriori temelji se na formiranju jakih skupova tako sto se broj
elemenata jakih skupova povecava za jedan. Zatim se pretrauje baza i filtriraju samo oni
elementi koji zadovoljavaju kriterij potpore s. U sljedecem koraku skupovi se nadovezuju,
baza ponovno skenira, filtrira i formiraju se jaki skupovi. Skeniranje baze podataka moguce
je smanjiti, ali to nije predmet analize.
Postoje i drugi algoritmi koji imaju istu namjenu kao i algoritam apriori. Njihov je cilj
pronalaenje i odredivanje asocijativnih pravila. Jedan takav algoritam je i DHP koji se u
odnosu na apriori algoritam razlikuje samo u primjeni tzv. hash tablice. Ta tablica smanjuje
veliinu skupa Ck , a posebno veliinu C2.
Cest primjer primjene algoritama za traganje kroz podatke je i klasifikacija. Cilj je
klasifikacije objekata predvidjeti buduce ponasanje sustava na temelju poznatih vrijednosti
atributa. Takav primjer klasifikacije je procjena rizika pri odobravanju zajma. Npr., na
temelju vrijednosti atributa: spol, dob i tip automobila formira se sljedece stablo:
Skup C4
X 27+27(,GSH
spoji ABC s ABD A0%0"0D ?
spoji ACD s ACE A0"0D0E =
Skup L4
X 27+27(,GSH
A,B,C,D 40M
A,C,D,E 40M
233
...
...
..
...
...
..
...
...
..
...
...
..
5o%or
Ma/aIa
&%o'
&%o'
,o
b
,o
b
Ti%
vo+i'a
Ti%
vo+i'a
Ve'ik ri+ik
Ve'ik ri+ik
1a'en ri+ik
1a'en ri+ik
1a'en ri+ik
1a'en ri+ik
<25
>45
25-45
...
...
..
...
...
..
Slika 13.6. Stablo odluivanja za procjenu rizika odobravanja zajma
U vorovima stabla prikazani su atributi dok grane stabla (veze izmedu vorova)
predstavljaju vrijednosti atributa. Stablo zavrsava listovima, a oni sadre rezultirajuci rizik
deriviran na temelju prethodnih kombinacija vrijednosti odgovarajucih atributa. Npr.
vidljivo je da se zajmovi mogu odobravati osobama koje kupuju motor Yamaha ako je
njihova starosna dob izmedu 25 i 45 godina. Svaka se klasifikacija mora provjeriti na
nekom reprezentativnom skupu podataka.
7.3.2. I*.>5+/;*, 2(,;/-,
Data mining metodologija stabla odluivanja i pravila odluivanja primjenjivi su u mnogim
realnim situacijama istraivanja kada je potrebno izvrsiti klasifikaciju. Cilj istraivanja je
kreirati model klasifikacije koji ce moci, na temelju vrijednosti ulaznih atributa, predvidjeti
klasu kojoj pripada neki entitet. Efikasno sredstvo za generiranje modela klasifikacije
(classifiers) je stablo odluivanja. To je supervised learning metoda (metoda koja unaprijed
poznaje ciljne vrijednosti) i ona generira stablo odluivanja iz podataka pohranjenih u
obliku relacijske tablice. Vrijednosti jednog atributa u relacijskoj tablici su ciljne vrijednosti
(zato se metoda naziva supervised learning) a vrijednosti ostalih atributa su ulazne
vrijednosti. Stablo je samo instanca opcenitijeg pojma koji se naziva graf. Graf ini skup
vorova N1, N2 ..., Nn i skup lukova L koji povezuju parove vorova. Takav skup vorova
ne mora biti konaan. Lukovi se opisuju kao uredeni par vorova.
Slika 13.7. Usmjereni graf
U raunalnom programu vorovi ( nodes ) esto predstavljaju pojmove kao sto su ljudi,
auta, avionske rezervacije i sl. To su neki tipini pojmovi pohranjeni kao strukture
podataka. Crte izmedu vorova prikazuju nain na koji su vorovi povezani. Jedini nain
kretanja izmedu vorova je slijediti tu crtu (luk) kojom su vorovi povezani, a zove se
putanja (path). Svaki luk usmjerenog grafa ima odreden smjer.
Ako usmjereni graf pokazuje od vora Nj prema Nk, tada se Nj zove roditelj, a Nk dijete. Ako
usmjereni graf sadri lukove (Nj, Nk) i (Nj, Ni), tada se Nk i Ni zovu braca jer imaju istog
roditelja. Cvor koji nema roditelja u grafu, zove se korijen, a vor koji nema djece, zove se
list ili vrh.
Slika 13.8: Uredeni niz vorova
234
Putanja duine n u grafu je uredeni niz vorova [N1,N2,N3...,Nn]. Svaki Ni,Ni+1 pokazuje neki
luk. U grafu tipa stablo kae se da je jedan vor prethodnik svih vorova desno u listi, a
sljedbenik svih vorova lijevo u listi. Broj lukova koji izlaze iz vora, zove se stupanj izlaza
(faktor grananja b od engl. rijei branching).
P71&'+ 4;7(> G;/1/+/*9H
Cvor je posjecen kada kontrola programa stigne do tog vora. Cilj posjeta voru stabla je
izvrsavanje nekih operacija u voru (nad vorom): prikaz sadraja vora, provjere
vrijednosti podataka u voru, promjena podataka i sl.
O8/-,?,5 G+(,;'(1/*9H
Obilazak stabla je posjet svim vorovima u nekom odredenom redoslijedu. U obilasku
stabla svaki vor se mora posjetiti.
R,?/*' G-';'-1H
Razina pojedinog vora je broj koji pokazuje koliko generacija je vor udaljen od korijena.
Ako se pretpostavi da je korijen na razini 1 (dubina 1), njegova djeca su na razini 2,
njegovi unuci bit ce na razini 3 itd. Stupanj (red) vora je broj podstabala nekog vora.
Dubina (depth) je stabla jednaka maksimalnoj razini nekog vora u stablu.
%/*,(*, 1+,8-,
Ako svaki vor u stablu ima najvise dva djeteta onda se stablo zove binarno (binary tree).
Binarno stablo je stablo koje se sastoji od nijednog, jednog ili vise vorova drugog stupnja.
Kod binarnog stabla razlikuju se lijevo i desno podstablo svakog vora. Bitno je uoiti da
postoji samo jedna putanja koja povezuje korijen stabla s nekim vorom.
Slika 13.9: Binarno stablo
Iz definicije binarnog stabla moe se jednostavno izraunati najveci broj vorova na nekoj
razini. Na prvoj razini najveci broj vorova je:
2
1-1
=1, na drugoj razini 2
2-1
=2, na trecoj razini 2
3-1
=4, na etvrtoj razini 2
4-1
=8, a na k-toj
razini 2
k-1
. Najveci broj vorova binarnog stabla dubine k je zbroj vorova na pojedinim
razinama:
2
0
+ 2
1
+ 2
2
+ 2
3
+...+2
k-1
= 2
k
-1 za k>0
Stablo koje je dubine k i ima 2
k
-1 elemenata naziva se 2>*7 8/*,(*7 1+,8-7. Binarno
stablo s n vorova dubine k je 27+2>*7 (complete) ako i samo ako njegovi vorovi
odgovaraju vorovima punog binarnog stabla dubine k koji su numerirani od 1 do n.
Posljedica je u tome da je razlika razina krajnjih vorova potpunog stabla najvise jedan.
Stablo odluivanja se sastoji iz vorova i veza izmedu vorova. Cvorovi reprezentiraju
atribute a veze izmedu vorova (grane stabla) su vrijednosti atributa. Listovi stabla su
klase.
P(/6&'(
Formirati stablo odluivanja za atribute X i Y, testirati njihovih vrijednosti i ovisno o
vrijednosti atributa generirati dvije klase.
235
MQR
2S1
.lasa 1
.lasa 2 .lasa 2 .lasa 1
Mes
&o
MQ9
MQB
MQC
Slika 13.10. Primjer stabla odluivanja
Prikazat ce se algoritam Quinlan ID3 i njegova prosirena verzija C4.5. On prvo analizira
sve slogove u relacijskoj tablici (sve elemente skupa za uenje). Bira se neki atribut ije
vrijednosti operacijom relacijske algebre koja se naziva selekcija horizontalno dijele
relacijsku tablicu. Svaka vrijednost tog atributa je grana u stablu odluivanja i ona formira
odgovarajuci podskup. Taj podskup sadri samo te izabrane vrijednosti atributa.Drugim
rijeima, formiraju se podskupovi vrijednosti atributa koji dijele tablicu pomocu operacije
selekcije. Algoritam se primjenjuje rekurzivno za svaki vor dijete sve dok svi elementi
skupa ne pripadnu istoj klasi. Svaka putanja do lista u stablu odluivanja je jedno pravilo
klasifikacije. Kljuna odluka je izbor atributa za neki vor.
Izbor atributa za ID3 i C4.5 algoritam je minimalna entropija. Taj izbor se temelji na
matematikoj teoriji informacija.
50
Primjer generiranja stabla odluivanja i induktivnih pravila iz baze podataka. Dana je
tablica baze podataka (ili tablica skladista podataka) a njenu relacijsku shemu baze ine
etiri atributa A1, A2, A3 i Cilj:
A1 A2 A3 Cilj
Y 80 True Klasa 1
X 60 False Klasa 1
Y 56 True Klasa 1
X 60 True Klasa 1
Z 70 False Klasa 1
X 75 False Klasa 2
Z 70 True Klasa 2
Y 69 False Klasa 1
Z 60 True Klasa 2
Y 66 False Klasa 1
X 85 False Klasa 2
Z 87 False Klasa 1
X 80 True Klasa 2
Z 70 False Klasa 1
Zadatak je prikazati relacijsku tablicu u obliku stabla odluivanja a onda stablo opisati
induktivnim pravilima. Ta znanja koristiti za klasifikaciju novih slogova koji se dodaju u
tablicu. Atribut A1 moe biti radno mjesto, atribut A2 dohodak, atribut A3 spol a atribut Cilj
50
Shannonova opca formula za entropiju konane distribucije vjerojatnosti:
D
1 i
i 2 i
p lo- p 3
0
gdje je pi vjerojatnost nastupanja dogadaja i uz uvjet p1 + p2 ...+ pn =1.
236
moe biti odluka o dodjeli (Klasa 1) ili odbijanju (Klasa 2) zajma nekoj osobi. Izbor atributa
u vor stabla odluivanja temelji se na entropiji. Kljuni pojam je gain (dobitak).
Gain(S,A) je oekivano smanjenje entropije zato sto se skup S sortira po atributu A.
Gain(S,A)=Entropija(S) - Vvrijednost.(A) |Sv|/|S| Entropija(Sv)
Entropija(S)=Entropija([91,52]) = -9/14 log2 9/14 - 5/14 log2 5/14= 0.94 bitova.
Devet slogova pripadaju klasi Klasa1, a pet klasi Klasa 2. Izraunata je entropija prije
razdvajanja baze na temelju vrijednosti pojedinih atributa i ona je 0.94 bitova. Slijedi
izraunavanje smanjena entropije ako se skup S sortira po atributima A1, A2, A3. Prvo ce se
sortirati po vrijednostima atributa A1.
Nakon uporabe atributa: Atribut 1 za podjelu inicijalnog skupa slogova T u tri podskupa
( na temelju tri vrijednosti X, Y i Z), dobiva se informacija uporabom izraza:
(X;Y;Z)vrijednost(A1) |Sv|/|S| *(Entropija(Sv))=
5/14*(-2/5* log2 (2/5)- 3/5* log2 (3/5) )
+ 4/14 *(-4/4* log2 (4/4)- 0/4* log2 (0/4))
+ 5/14*(-3/5* log2 (3/5)- 3/5* log2 (2/5) ) = 0.694 bitova
Informacijski dobitak nakon podjele skupa po atributu A1 je:
Gain(S,A)=Entropija(S) - (X;Y;Z)vrijednost(A) |Sv|/|S| Entropija(SvHO
=0.940-0.694=0.246 bitova.
Slino izraunavanje slijedi za atribut A3:
(True;False)vrijednost(A) |Sv|/|S| *(Entropija(Sv))=
6/14*(-3/6* log2 (3/6)- 3/6* log2 (3/6) )
+ 8/14 *(-6/8* log2 (6/8)- 2/8* log2 (2/8))
=0.892 bitova
Informacijski dobitak nakon podjele skupa po atributu A3 je:
Gain(S,A)=Entropija(S) - (True;False)vrijed.(A) |Sv|/|S| Entropija(SvHO
=0.940-0.892=0.048 bitova.
Atribut A2 je poseban jer sadri numerike kontinuirane vrijednosti. Moguce je primjeniti tri
testa:
a) standardni test za diskretne vrijednosti. Jedna grana iz vora stabla i jedan rezultat za
svaku vrijednost (primjer su atributi A1 i A3).
b) atribut A2 ima kontinuirane vrijednosti. Postavlja se prag P i dobiva binarni test:
A2<=P i A2 >P .
c) moe se primjeniti, na temelju diskretnih vrijednosti i sloeniji test od binarnog.
Formiraju se vise od dvije grupe vrijednosti, a svaka grupa ima jednu izlaznu vrijednost. U
stablu odluivanja svaka grupa bi formirala jednu granu.
U danom primjeru za atribut A2 se ppostavlja pitanje kako pronaci optimalnu vrijednost za
prag P?Moe se primjeniti slijedeci algoritam:
1. Sortirati atribut u rastucem redoslijedu.
2. Za atribut A2 (56, 60, 66,69,70,75,80,85,87).
3.Moe se ispitati svaka vrijednost i provjeriti koja je od njih optimalna. Za interval
vrijednosti atributa Vi i Vi+1 moe se uzeti manja vrijednost ili sredina intervala.
4.Nakon ispitivanja optimalna vrijednost za P=70.
5.Test je binarni: A2<=70 ili A2>70
70vrijedost(A) |Sv|/|S| *(Entropija(Sv))=
9/14*(-7/9* log2 (7/9)- 2/9* log2 (2/9) )
+ 5/14 *(-2/5* log2 (2/5)- 3/5* log2 (3/5))
=0.837 bitova
Informacijski dobitak nakon podjele skupa po atributu A2 je:
Gain(S,A)=Entropija(S) - 70vrijednost.(A) |Sv|/|S| Entropija(SvHO
=0.940-0.837=0.103 bitova.
237
Najveci doprinos u informacijama rezultira iz atributa A1. Zato ce se u korijen stabla
odluivanja postaviti A1.
Za svaki podsku vrijednosti bi se ponovno primjenio rekurzivni postupak odredivanja
atributa u voru podstabla. Za podskup vrijednosti T1 provjerili bi informacijske dobitke ako
bi se taj podskup podijelio po atributima A2 i A3.
Entropija([21,32]) = -2/5 log2 2/5 - 3/5 log2 3/5 = 0.940 bitova.
Dva sloga pripadaju klasi Klasa1, a tri klasi Klasa2. Izraunata je entropija prije razdvajanja
baze i ona je 0.94 bitova.
Prag je P=60.
60vrijednost.(A2) |Sv|/|S| *(Entropija(Sv))= 2/5 * (-2/2* log2 (2/2)- 0/2* log2 (0/2) )
+ 3/5 *(-0/3* log2 (0/3)- 3/3* log2 (3/3)) =0 bitova
Informacijski dobitak je maksimalan. Dvije grane iz vora u kojem je atribit A2 ce kreirati
listove stabla odluivanja jer podskup slogova na svakoj grani pripada istoj klasi.
Slian postupa primjenit ce se na podskup T3. Za podskup T3 tablice T optimalni test je za
vrijednosti atributa A3. Grane stabla A3=True i A3=False kreiraju podskupe slogova koji
pripadaju istoj klasi. Konano se dobiva stablo odluivanja za bazu podataka T:
238
.2 )alse 85
.1 )alse 60
.2 )alse 75
.2 Krue 80
.1 Krue 60
Cilj 9
3
9
2
.1 )alse 66
.1 Krue 56
.1 )alse 69
.1 Krue 80
Cilj 9
3
9
2
9
1
QR
.1 )alse 70
.1 )alse 87
.1 )alse 70
.2 Krue 60
.2 Krue 70
Cilj 9
3
9
2
2
M
D
K
1
K
2
K
3
22 False 85
21 False 60
22 False 75
22 Tr!e 80
21 Tr!e 60
2lasa ;3 ;2
T
#
S60
D
M
TQ60
Krue
)alse
9
1
9
3
9
2
.lasa 1 .lasa 2 .lasa 1 .lasa 2 .lasa 1
2
Slika 13.12. Stablo odluivanja za bazu podataka
Cijela baza podataka se moe zapisati u obliku pravila:
Pseudokod se moe zapisati u obliku pravila:
Rule 1: Ako je A1=X I A2<=60 Onda Klasa 1;
Rule 2: Ako je A1=X I A2>60 Onda Klasa 2;
Rule 3: Ako je A1=Y Onda Klasa 1;
Rule 4: Ako je A1=Z I A3=True Onda Klasa 2;
Rule 5: Ako je A1=Z I A3=False Onda Klasa 1;
Zato sto je induktivni algoritam sloen i temelji se rekurziji, njegova primjena je moguca
samo uz uporabu odgovarajucih softvera. Dobiveni rezultat je od krucijalne vanosti za
analizu i predvidanje jer se odnosi izmedu atributa u relacijskoj tablici izraavaju u obliku
jednostavnih pravila ako... onda.
Broj metoda data mininga se povecava a njihovu primjenu omogucuje i potie razvoj
tehnologije obrade podataka. Istraivau su dostupni softverski alati koji sadre te metode i
olaksavaju proces istraivanja a osobitu fazu analize podataka. Posebno su zanimljive
neuronske mree, genetiki algoritam fuzzy setovi, sustavi temeljeni na znanju i ekspertni
sustavi, klasteriranje (k-means) itd.
7.4. PRIMJER ISTRAIVANJA $POTRE%OM PRIMJENSKOG SO!TVERA
Primjer su podaci prikupljeni upitnikom za korisnike zdravstvenih usluga kojima se eli
istraiti razina zadovoljstva stanovnika uslugama u gradu. Na pitanja su odgovarale
korisnici usluga (mogu se ukljuiti tisuce korisnika) , a u upitniku su postavljena sljedeca
pitanja (navedna su i znaenja pojedinih varijabli u upitniku):
Objekt istraivanja je zadovoljstvo korisnika zdravstvenih usluga. Upitnik popunjava
korisnik.
a) Vrijeme je kvantitativni tip podataka i mjeri se u minutama. To je vrijeme koje u
zdravstvenoj ustanovi potrosi pacijen prilikom posjeta zdravstvenoj ustanovi.
) Nain odlaska u zdravstvenu ustanovu je nominalni tip podataka i ine ga etiri
moguca naina odlaska:
1. setnjom,
2. autom,
3. biciklom,
4. autobusom.
Jedan pacijent koristi samo jedan nain odlaska do lijenika tj. oni se medusobno
iskljuuju.
c) Pregledi prilikom jednog posjeta zdravstvenoj ustanovi. Ponovno nominalni tip
podataka i ini ga sest najescih pregleda u ordinacijama:
1. stomatolog,
2. pedijatar,
3. pulmolog,
4. kardilog,
5. ginekolog,
6. laboratorijske pretrage.
Pacijent moe posjetiti vise ordinacija prilikom jednog posjeta zdravstvenoj ustanovi.
d) Zadovoljstvo je ordinalna ljestvica s 5 vrijednosti:
1. -2 = veoma nezadovoljan,
2. - 1 = nezadovoljan,
3. 0 = indiferentan,
239
4. 1 = zadovoljan,
5. 2 = veoma zadovoljan.
Ljestvica mjeri zadovoljstvo pacijenta zdravstvenom uslugom.
e) Pacijent s malom djecom za vrijeme pregleda ele imati pomoc u uvanju djece.
Igraonica je nominalna ljestvica (Yes ili No) u ovisnosti o tome postoji ili ne postoji
igraonica.
Podaci su prikazani u sljedecoj tablici:
P,)/&'*+ V(/&'6' N,4/* 7.-,15, A5+/;*71+ Z,.7;7-&1+;7 I9(,7*/),
1 30 1 1, 2, 3 0 N
2 30 3 4,6 1 Y
3 60 2 1, 2 2 Y
4 45 1 5 -1 N
5 30 1 6 1 N
6 60 2 2 2 Y
7 30 3 4 1 N
8 45 2 3, 4 -1 N
9 15 1 6 1 Y
10 60 2 2 2 Y
11 180 4 1, 2, 3, 4 2 Y
12 120 2 1,2,4 2 Y
Sa tim veoma ogranienim podacima (malim brojem podataka) elimo dati odgovore na
sljedece ciljeve istraivanja:
a) Kolika je razina zadovoljstva stanovnika s zdravstvenom uslugom u gradu?
b) Koje preglede najesce ljudi koriste u ustanovama?
c) Kako najesce dolaze do ustanove (kojim prijevoznim sredstvima)?
d) Doprinose li igraonice vecem zadovoljstvu korisnika usluga ?
e) Postoji li povezanost izmedu vrste pregleda i vremena provedenog u
ustanovi?
Kako cemo ispuniti te ciljeve istraivanja? Naravno, s jednostavnim podacima prikazanim u
tablici moguce je do odgovora doci uporabom obinog kalkulatora. Medutim posluit cemo
se s MC Excelom kako bi prikazali jednu mogucu uporabu informacijske tehnologije i tog
mocnog primjenskog softvera u istarivanjima. Pretpostavka je da su prikazani podaci
samo ilustracija procesa istraivanja, a nisu rezultat stvarne aktivnosti prikupljanja
podataka.
7.4.1. P(/2('6, 27.,+,5, /? >2/+*/5, ?, ,*,-/?>
Prvi korak je transformacija podataka u drugi format koji je primjenjiv u Excelu. Samo dvije
varijable tip pregleda i igraonica moraju promjeniti tip podataka dok su ostale varijable u
formatu primjenjivu u Excelu. Varijablu tip pregleda cemo kodirati binarnim znamenkama 0
i 1. Ako je odabran odredeni tip pregleda onda se biljei 1, ako tip pregleda nije odabran
unosi se 0. Zato je u tablici Excela potrebno dodati sest stupaca po jedan stupac za svaki
moguci tip pregleda. Varijabla igraonica ce se konvertirati u binarni oblik pri emu binarna
znamenka 1 kodira logiku vrijednost True (istinito), a 0 logiku vrijednost False (lano).
Takva transformacija podataka iz upitnika u numeriki oblik omogucuje uporabu alata D,+,
A*,-J1/1 /? EK)'-,.
T/2 2('9-'.,
240
O8/+'-& V(/&'6' N,4/*
.7-,15,
1 2 3 4 5 6 Z,.7;7-&1+;7 I9(,7*/),
1 45 1 1 1 1 1 0 0 1 1
2 45 4 0 0 0 1 0 0 0 0
3 60 1 1 1 0 0 0 1 2 1
4 50 2 1 0 0 0 1 0 -1 0
5 60 2 0 0 0 0 0 1 1 0
6 60 2 1 1 0 0 0 0 2 1
7 30 3 0 0 1 1 0 0 1 0
8 45 2 1 0 1 1 0 0 -1 0
9 15 1 0 0 0 0 0 1 1 1
10 60 2 0 1 0 0 0 0 2 1
11 180 4 1 1 1 1 0 0 2 1
12 120 2 1 1 0 1 0 0 2 1
13 80 4 1 0 0 1 1 1 1 0
14 40 6 1 0 0 1 0 1 0 1
15 70 8 1 1 1 0 1 1 1 0
16 90 10 1 0 0 1 0 0 -2 1
17 60 12 1 1 1 0 1 0 1 0
7.4.2. D'1)(/2+/;*, 1+,+/1+/5, >27(,876 ,-,+, D,+, A*,-J1/1
Microsoft Excel ima izvrstan alata za analizu podataka uporabom deskriptivne statistike. Za
uporabu alata Data Analysis potrebno je instalirati Add-ins tako sto se aktivira manuT77-1
N A.. I*1 - i odabere A*,-J1/1 T77-P,)5 / pritisne gumb OK.
241
Sljedeci put nakon otvaranja Tools menu again, na dnu padajuceg menija ce se
pojaviti opcija Data ata Analysis. Uporaba alata deskriptivne statistike iz izbornika
Data Analysis je jednostavna. Potrebno je izabrati podizbornik Descriptive Statistics i
upravlja OK:
Slijedi dijalog s podizbornikom Descriptive Statistics. Bira se raspon celija radnog lista u
kojem se nalaze potrebni podaci za analizu. Ukljuiti prvi redak tablice kao label i oznaiti
check box, izabrati check box za Summary statistics i kliknuti na upravlja OK:
242
Rezultat uporabe alata Descriptive Statistics nakon formatiranja prikazan je na slijedecoj
slici:
Deskriptivna ststistika prikazuje vise razliitih rezultata. U analizi se treba koncentrirati
samo na ciljeve istraivanja:
a) Kolika je razina zadovoljstva obitelji s zdravstvenom uslugom u gradu?
Razina zadovoljstva je srednja vrijednost i ona iznosi 0,76. Ta je vrijednost najblia na
ljestvici zadovoljstva vrijednosti jedan koja je kodirana s zadovoljan.
b) Koje preglede najesce ljudi koriste u ustanovama?
243
Najesca vrijednost tipa pregleda je 1, a to je posjet stomatologu. Moe se zakljuiti da
pacijenti najesce posjecuju stomatologa.
c) Kako najesce dolaze do ustanove (kojim prijevoznim sredstvima)?
Najesci nain dolaska do zdravstevene ustanove je 2 (vrijednost moda) tj. automobilom.
Zbroj vrijednosti u stupcu tip pregleda je frekvencija posjeta nekoj ordinaciji- lijeniku.
Zato se moe pomocu dijagrama strukture vizualizirati struktura tipa pregleda:
T/2 2('9-'., !('5;'*)/&,
R'-,+/;*,
:('5;'*)/&,
Stomatolog 12 27%
Pedijatar 8 18%
Pulmolog 6 13%
Kardilog 9 20%
Ginekolog 4 9%
Laboratorijske pretrage 6 13%
Z8(7& 45 100%
*truktura ti( (regle"a
$edijatar
18,
$!l'olo4
13,
2ardilo4
20,
<ine/olo4
9,
=aboratorijs/e
-retra4e
13, .to'atolo4
27,
.to'atolo4
$edijatar
$!l'olo4
2ardilo4
<ine/olo4
=aboratorijs/e -retra4e
244
Tri od pet postavljenih ciljeva istraivanja nije bilo sloeno ispuniti uporabom deskriptivne
statistike. Posljednja dva cilja istraivanja:
d) Doprinose li igraonice vecem zadovoljstvu korisnika usluga ?
e) Postoji li povezanost izmedu vrste pregleda i vremena provedenog u ustanovi?
sloenije je ispuniti. Ti ciljevi istraivanja sadre relacije izmedu dvije ili vise varijabli. Zato
je nuno uporabiti tehniku tablica kontigencije (Cross Tabulation). To su tablice frekvencije
izmedu dvije ili vise varijabli. Radi jasnoce rezultata nije preporuljivo uporabiti vise od
etiri varijable. U Excelu tablice kontigencije su poznate pod nazivom Pivot Table ili Cross
Tabulation.
Pivot tablica se jednostavno aktivira uporabom ikone za Pivot tablicu ili padajuceg
izbornika:
Slijedi dijalog za uporabu Pivot tablice Excela:
245
U drugom koraku primjene arobnjaka Excela potrebno je oznaiti podatke u tablici (prvi
redak tablice je label):
U trecem koraku Pivot Table arobnjaka odabrati opciju Layout:
246
Za istraivanje povezanosti varijabli Igraonica i Zadovoljstvo uslugama uzeti i spustiti
nazive varijabli desno u dijagramu. Postaviti u redak varijablu Zadovoljstvo i Igraonica u
stupac. Jos jedanput varijablu Zadovoljstvo spustiti u podruje podataka Pivot Tablice. Ona
se pojavljuje u obliku Sum of Zadovoljstvo. Ponovno dvostruko kliknuti na upravlja Sum of
Zadovoljstvo i rezultat je vidljiv na slijedecoj slici:
Odabrati opciju Summarize by Count i kliknuti dvaput na upravlja OK.
Ponovno se vracamo na treci korak arobnjaka za Pivot Table i kliknemo na Finish. Excel ce
automatski kreirati kontigencijsku tablicu.
247
Nakon toga odabrati drugu celiju i aktivirati meni E./+ D P,1+' S2')/,- . Kliknuti na opcije
Values i OK:
Nakon toga potrebno je izraunati neovisne vrijednosti u tablici. Zelimo istraiti je li
varijabla Igraonica u relaciji s varijablom Zadovoljstvo. Posluit cemo se jednostavnim "A/D
1V>,(' testom. Ako rezultat testa pokae da varijabla Igraonica nije povezana s varijablom
Zadovoljstvo onda se moe zakljuiti da igraonica ne mijenja zadovoljstvo korisnika
zdravstvenih usluga. Ako je rezultat testa drugaiji onda se moe zakljuiti da su te dvije
varijable medusobno povezane. Potrebno je izraunati:
/
1 i
n
1 j
ij
n
1 j
ij
/
1 i
ij
ij
,
, ,
e
Znaenje te formule je slijedece:
Jedna celija u tablici se izraunava tako sto se pomnoi zbroj u njenom redku s zbrojem u
njenom stupacu i taj umnoak podjeli s zbrojem svih redaka (ili stupaca).
Npr. Za Zadovoljstvo= 1 i Igraonica = 1, postoje podaci od dva ispitanika. Zbroj redaka je
9 a zbroj stupaca 7. Ukupan broj podataka je 17. Neovisna vrijednost za tu celiju u tablici
kontigencije je 7*9/17=3,71. Nakon preraunavanja vrijednosti svih celija dobiva se
popunjena kontigencijska tablica. Ta tablica znai: ako varijabla Igraonica je 100%
neovisna o varijabli Zadovoljstvo, onda sadraj celija mora biti jednak tim vrijednostima.
Count of
Zadovoljstvo Igraonica
Zadovoljstvo 0 1
Grand
Total
-2 0,471 0,529 1
-1 0,941 1,059 2
0 0,941 1,059 2
1 3,294 3,706 7
2 2,353 2,647 5
Grand Total 8 9 17
Nakon sto su izraunate oekivane vrijednosti za varijable Zadovoljstvo i Igraonica
potrebno je primjeniti Chi-kvadrat test. Prvo ce se izraunati pojedinane vrijednosti Chi-
kvadrat testa, a zatim ce se te pojedinane vrijednosti zbrojiti:
248
/
1 i
n
1 j
ij
/
1 i
n
1 j
2
ij ij
2
e
) e o 1
Rezultat Chi-kvadrat testa prikazan je u slijedecoj tablici:
"A/D1V>,(' +'1+ I9(,7*/),
Z,.7;7-&1+;7 0 1
D2 0,471 0,418
D1 1,191 1,059
0 0,004 0,003
1 0,883 0,785
2 2,353 2,092
"A/D1V>,(' 9,259
S+>2*&';/
1-787.' 4
V&'(7&,+*71+ 0,055
Broj stupnjeva slobode potreban je za izraunavanje vjerojatnosti a izraunava se tako sto
broj redaka i broj stupaca umanjimo za jedan i izraunamo njihov umnoak:
df=(broj redaka-1)*(broj stupaca-1)= (5-1)*(2-1)=4.
Kako bismo bili sigurni da da je varijabla Zadovoljstvo povezana s varijablom Igraonica
dobro je posatviti stupanj neovisnosti sto je moguce manje, npr. manje od 5%. Ta
vrijednost je bpogreska koju smo spremni prihvatiti (razina signifikantnosti). Ako je
izraunata vjerojatnost manja od 0,05 onda varijable Zadovoljstvo i Igraonica su povezane.
U danom primjeru vjerojatnost je 5,5% a to znai da varijable Zadovoljstvo i Igraonica nisu
povezane. Postupak analize za istraivaki zadatak utvrdivanja povezanosti izmedu vrste
pregleda i vremena provedenog u ustanovi je isti kao i za analizu povezanosti Zadovoljstva
i igraonice.
If between the two variables in the contingency table.
249
8. PISANJE ZNANSTVENOGA DJELA
8.1. DIJELOVI ZNANSTVENOGA DJELA
Nema znanstvenog djela bez tri temeljna dijela koja ga ine - uvoda, razrade i
zakljuka. Svako, medutim, iole znaajnije znanstveno djelo, u stvarnosti sadri znaajno
vise sastavnih dijelova od tri navedena. Medu autorima se, doduse, daju identificirati razlike
u vezi s brojem tih dijelova. ami, primjerice, razlikuje deset dijelova znanstvenog djela -
naslov, pregovor, uvod, razradu, zakljuak, bibliografiju, rezime, indeks (kazalo pojmova i
imena), dodatak i sadraj (vidjeti, amic, 1969., 86.-89.). Zelenika, opet, razlikuje ak
sesnaest bitnih elemenata znanstvenoga djela - naslov, moto, posvetu, predgovor, sadraj,
uvod, izlaganje materijala (dijelove djela), zakljuak, saetak, bibliografiju, popis tabela,
popis grafikona, popis fotografija, priloge, stvarni registar i kratice (vidjeti, Zelenika, 1990.,
229.).
Drugi autori, opet, govore o dvije vrste sastavnih dijelova znanstvenoga djela -
onima koji se u pravilu nalaze kod znanstvenih djela i onima koji se u tim djelima mogu
pojaviti (vidjeti, Zugaj, Dumiic, Dusak, 1999., 247.).
Jedna grupa autora, s druge strane, sto se dijelova od kojih su sastavljeni tie, ne
prave razliku izmedu znanstvenih djela. Za druge, medutim, razlike izmedu znanstvene
knjige i znanstvenih lanaka se ne smiju ignorirati.
Pristup, koji uvaava razlike izmedu strukture znanstvenih knjiga i znanstvenih
lanaka, i po kojem treba praviti razliku izmedu dijelova koji se u strukturi znanstvenih
djela podrazumijevaju i onih koji se u njima mogu naci, smatramo prihvatljivijim. Na toj
vrsti opredjeljenja se i temelji nastavak ove analize.
8.1.1. D/&'-7;/ ?*,*1+;'*' 5*&/9'
Pod znanstvenom knjigom se, u kontekstu ove analize, podrazumijeva ukorieno
znanstveno djelo - plod konanog pisanog uobliavanja dugotrajnijeg znanstvenog,
250
odnosno znanstvenoistraivakog rada. To moe biti magistarski rad, doktorska disertacija,
a moe i druge vrste djela koje su rezultat znanstvenog i znanstvenoistraivakog rada
pojedinca ili grupe. U njezinoj se strukturi, sukladno prethodnom opredjeljenju, moe
praviti razlika izmedu dvije vrste dijelova njezine strukture - izmedu dijelova koji
znanstvenu knjigu obvezno prate, koji se u njezinoj strukturi podrazumijevaju, i onih koji
se u znanstvenoj knjizi mogu, ali i ne moraju pojaviti.
Prvu grupu ini osam sastavnica znanstvene knjige: 1. naslov, 2. sadraj, 3. uvod,
4. sredisnji dio (osnovni tekst, razrada), 5. zakljuak, 6. saetak, 7. popis literature
(bibliografija), te 8. indeks pojmova i imena. Drugu grupu, dijelove koji se u znanstvenom
djelu mogu naci, ali i ne moraju, ini pet sastavnica: 1 . moto, 2. posveta, 3. predgovor, 4.
popis tablica i ilustracija, te 5. dodatak (prilozi). Navedenim ih se redoslijedom elaborira i u
nastavku analize.
8.1.1.1. D/&'-7;/ 8'? 57&/A *'6, ?*,*1+;'*' 5*&/9'
8.1.1.1.1. N,1-7;
Naslov znanstvenog djela, neovisno o tome radi li se o znanstvenoj knjizi ili lanku,
je veoma znaajan posao. Razlog tome je u injenici da on predstavlja svojevrsno ogledalo
znanstvenoga djela, njegov najoevidniji i najitaniji dio (Silobric, 1983., 29.), dio
temeljem kojeg se itatelj esto odluuje vrijedi li djelo itati ili ne jer se njime - a zadatak
je autora da to uini sa sto manje rijei - izraava i osnovni sadraj konkretnog djela. Cesto
se, zbog svega toga, zna kazati kako naslov, sam po sebi, predstavlja pola djela, kako
konkretno djelo, zbog naina na koji je odreden, moe uiniti prijemivim, ali i odvratiti
itatelja od nakane da ga ita.
Da bi svim prethodnim zahtjevima udovoljio, naslov mora biti u isti mah koncizan,
precizan i izrazit, tj. u preciznom i saetom obliku odraavati i izraavati sto adekvatnije i
potpunije sadraj i predmet djela (amic, 1980., 86.). To, prije svega, znai da on mora
biti i jasan i maksimalno in'ormativan. S druge strane, to znai da naslov treba biti
kratak, ali ne i prekratak jer takav, posebice ako se radi o magistarskim radovima i
doktorskim disertacijama, predmet znanstvenoga djela izraava suvise uopceno, a samim
tim je i neprikladan.
No, naslov ne smije biti ni (redug jer u tom sluaju, u pravilu, zamagljuje temu,
zamara i izaziva dosadu. U sluaju, medutim, da se dugaak naslov namece sam od sebe,
postoji efikasan nain na koji se takva mogucnost i izbjegava. Radi se, zapravo, o tome da
se naslov razlomi, da se uz naslov iskoristi i podnaslov u funkciji preciznijeg odredivanja
teme koja je predmet znanstvenoga djela. Kako to konkretno izgleda pokazuje i sveuilisni
udbenik Sociologija, teorije drustvene strukture
51
. Naslovom Sociologija, naime, autor
nije mogao izraziti sve ono sto je u naslovu htio. Podnaslov Teorije drustvene strukture
su mu, prema tome, posluile kao svojevrsno pomocno sredstvo. Istodobno, medutim,
izvrsenim je razlamanjem rasterecen osnovni naslov ovog djela.
Neki autori stavljaju znak jednakosti izmedu naslova i teme znanstvenog i strunog
djela (vidjeti, Zelenika, 1990., 217.). No, razliku medu njima je potrebno praviti. Tema je,
naime, ono s im znanstvenik starta, s im ulazi u istraivanje, na sto se njegovo
istraivanje, ali i pisanje znanstvenoga djela, odnosi. Ona je svojevrsni radni okvir buducem
naslovu. Tema se, doduse, moe poklapati s naslovom, ali i ne mora. Ako se ne radi o
poklapanju onda se tema, za vrijeme pisanja djela, koristi kao radna tema, dakle
nedovrsena, nefinalizirana. Naslov je, s druge strane, tema u najuem smislu rijei, bit
problema na koji se odnosi tema. To, drugim rijeima, znai da je, u pravilu, tema sira od
onoga sto je obuhvaceno naslovom znanstvenoga i strunog djela. Kako to, uostalom,
izgleda, u kakvom su odnosu tema i naslov znanstvenoga djela, i kako se iz teme izvodi
naslov, pokazuje i slijedeci primjer (slika br. x)
51
Radi se o sveuilisnom udbeniku Slavo Kukic: Sociologija, Teorije drutvene strukture, Sarajevo
Publishing, Sarajevo, 2004.
251
Slika br. x: Prikaz postupka odredivanja naslova
8.1.1.1.2. S,.(C,&
Sadraj znanstvene knjige je dio o ijem se poloaju u strukturi znanstvene knjige
daju sresti razlike u pristupima pojedinih autora. Francuski pristup
52
, primjerice, naginje
stavljanju sadraja na kraj knjige. Slijedi li se, medutim, ameriki pristup, sadraj ce se
pozicionirati na samom poetku knjige. Ovaj je pristup, s druge strane, danas sve
dominantniji, a za takvu orijentaciju, istini za volju, postoje i racionalni razlozi. Sadraj je,
naprosto, neka vrsta putokaza pa mu je, onda, na poetku knjige i pravo mjesto. No,
pogrijesiti se nece ni u sluaju da se postupi na drugi nain.
Kako, pak, sadraj, kao dio znanstvene knjige, i definirati? U pitanju je,
najjednostavnije kazano, jasan i pregledan, u pravilu stupnjevito strukturiran, popis
naslova pojedinih dijelova knjige, s pripadajuci im brojevima stranica, glava, poglavlja,
odsjeka i podosijeka. Pri tome je vano da se u njihovom obiljeavanju mogu slijediti
razliite vrste opredjeljenja. Manuel Theisen, primjerice, pravi razliku izmedu dviju vrsta
uredivanja poretka grade u sadraju - numerikoga i slovno-numerikoga (vidjeti, Theisen,
2000., 100-106.). U svakom od njih on, potom, razlikuje uredivanje sadraja po linijskom
principu i po principu stupnjevanja. Kako to u stvarnosti izgleda pokazuju slijedeci primjeri:
Tablica br.x: Numeriki redoslijed poglavlja sadraja
Linijski princip Princip stupnjevanja
1.
2.
2.1.
2.1.1.
2.2.
2.2.1.
2.2.1.1.
2.2.1.1.1.
2.2.1.1.2.
2.2.1.2.
2.2.2.
2.3.
2.4.
3.
4.
1.
2.
2.1.
2.1.1.
2.2.
2.2.1.
2.2.1.1.
2.2.1.1.1
.
2.2.1.1.2
.
2.2.1.2.
2.2.2.
2.3.
2.4.
3.
4.
Tablica X: Slovno-numeriko uredivanje sadraja
Linijski princip Princip stupnjevanja
52
Taj pristup zagovara i Midhad amic (vidjeti, amic, 1980., 89.)
Q
PROBLEM
IROKI
NASLOV
UZI NASLOV
OBITELJ
252
UTJECAJ
OBITELJI NA
ODLUKU O
KUPOVINI
A.
I.
1.
a.
b.
ba.
bb.
2.
II.
B
A.
I.
1.
a.
b.
ba.
bb.
2.
II.
B
Gerhards, medutim, navodi jos razvijeniju skalu mogucnosti uredivanja poretka
grade u sadraju (vidjeti, Gerhards, 1984., 40.). Dajemo djelomini prikaz i njegova izbora
mogucnosti navedenih mogucnosti.
Tablica X: Razliiti sistemi oznaavanja sadraja i njegove strukture
SISTEM I II III IV V
Stupanj
dubine
1. 1. 1. dio 1. odjeljak A. I.
2. 1.1. 1. odjeljak A. I. A.
2. 1.2. 2. odjeljak B. II. B.
1. 2. 2. dio 2. odjeljak B. II.
2. 2.1. 1. odjeljak A. I. A.
3. 2.1.1. A. I. 1. 1.
3. 2.1.2. B. II. 2. 2.
4. 2.1.2.1. I. 1. a) a)
4. 2.1.2.2. II. 2. b) b)
5. 2.1.2.2.1. 1. a) aa) (1)
5. 2.1.2.2.2. 2. b) bb) (2)
1. 3.
itd.
3. dio
itd.
3. odjeljak
itd.
C.
Itd.
III.
Itd.
Ako bi se, ipak, opredjeljivali za jedan od ponudenih sistema uredivanja sadraja,
to bi, bez ikakve sumnje, bio numeriki redoslijed poglavlja, i to onaj koji je sastavljen na
principu stupnjevanja. Razlog tome je veca preglednost u odnosu na druge, velika
sistematizacija i kretanje od opcih prema posebnim pojmovima. U njemu se, osim toga,
primjenjuje takozvani dekadski sistem koji se u znanstvenim radovima danas najesce
prakticira.
Na koncu, sadraj svakog znanstvenog djela - neovisno o tome radi li se o knjizi ili
znanstvenom lanku - se moe promatrati sa dva stajalista: sa stajalista autora i sa
stajalista itatelja. Za njih on, oito, ima razliito znaenje. Sa stajali0ta autora sadraj je
kompas za njegov rad, orijentacijski plan ili uputstvo za redoslijed izlaganja materije, ali i
instrument pomocu kojeg planira koliko ce, ovisno o znaenju svake cjeline ponaosob,
prostora posvetiti svakom zasebnom dijelu znanstvenoga djela koje pise. Sa stajali0ta
.itatelja, medutim, sadraj je dio knjige u kojem je dan pregled glava, poglavlja, odsjeka i
podosjeka prema stranicama znanstvenoga ili strunog djela na kojima su smjesteni. On je,
drugim rijeima, za itatelja svojevrsni putokaz koji mu pomae da ne luta, numeriko-
tekstualni pregled za brzo pronalaenje potrebnih mu informacija na stranicama teksta, na
kojima su one i smjestene.
8.1.1.1.3. $;7.
Bez obzira o kojoj vrsti znanstvenog ili strunog djela se radilo, rije uvod
upucuje i na zakljuak sto bi se u ovom dijelu znanstvenoga i strunog djela trebalo naci.
On je, metaforiki kazano, ukusno predjelo koje se servira itatelju prije nego mu se
253
iznese glavno jelo, tj. razrada i obrada autorova pisanog djela, i stoga mora biti napisan
lijepo, jasno i ivo, tako da itatelja odmah pridobije, naroito svojom preciznoscu i svojim
zanimljivim pristupom izabranoj temi (Zelenika, 1990., 234.).
U uvodu znanstvenog i strunog djela se, prema 8ami2u, iznosi kratak historijat
pitanja, nastanak i glavne etape u njegovu razvoju i rjesavanju, odnos izabranog problema
prema ranijim istraivanjima, obim i granice osobnog istraivanja, potom, objasnjava i
precizira problem koji se eli obraditi, iznose razlozi koji su znanstvenika potakli da predmet
obradi, sumira osnovne izvore informacija, osvrce na metodu koja je primijenjena u obradi
teme, saopcava eventualna primoranost da se tema, zbog neoekivano obilnog ili oskudnog
materijala, manje ili vise izmijeni, da se primijeni neke druge metodoloske postupke itd.
(vidjeti, amic, 1980., 87.).
Neki autori idu i korak dalje - izdvajaju elemente uvoda koji su, vise ili manje,
standardni. Prema ugaju, primjerice, identificirati se moe sedam takvih elemenata
(vidjeti, Zugaj, 1989., 380-384):
1. Postavljanje problema, odnosno preciziranje, esto u formi prosirenih pitanja, o
kojem problemu se u znanstvenom djelu radi.
2. Predmet i objekt prouavanja, pri emu je itatelja neophodno i detaljnije
upoznati sto sve obuhvaca objekt prouavanja.
3. Metode, opce i posebne, koje su u istraivanju koristene.
4. Razvoj znanosti, odnosno kratku povijest problema, od kada zapoinje njegovo
istraivanje kako bi se znalo dokle se doslo i otkuda se u istraivanju polazi.
5. Aktualnost i ivotna vrijednost predmeta prouavanja jer bez aktualnosti i
svako konkretno istraivanje esto gubi na svojoj zanimljivosti.
6. Koritenje pomonih znanosti, i preciziranje o kojim znanostima se radi.
7. Bibliografija. Mada je njezino mjesto na kraju knjige, autori znaju pribjeci
navodenju najznaajnijih koristenih djela i u njezinu uvodu.
Razlika se, dakako, moe praviti izmedu razliitih vrsta uvoda i prema razliitim
kriterijima njihova razvrstavanja. Prema (oloaju u knjizi moguce je praviti razliku
izmedu tri vrste uvoda:
1. Uvod na poetku knjige, ispred osnovnoga teksta. Ova vrsta uvoda dolazi
odmah iza sadraja, ini zasebnu cjelinu ili poglavlje, govori u cjelokupnom djelu i opcenitiji
je.
2. Uvod svakom poglavlju se odnosi na svako zasebno poglavlje i pozicionirano je
na poetku poglavlja.
3. Uvod kao osnova neke znanosti, koji se primjenjuje u sluajevima kada se u
vise knjiga izlae znanstvena problematika cijele jedne znanstvene discipline. U tom se
sluaju, kao prva knjiga takvog serijala, prakticira uvod u obradivanu znanost - uvod u,
primjerice, ekonomiju, sociologiju, pravo, knjievnost itd. Neki autori, medutim, smatraju
uputnim ovu vrstu uvoda zamijeniti terminom osnove, kako bi se izbjeglo
poistovjecivanje 'uvoda' kao dijela rada kojim se itatelj uvodi u problematiku djela i
'uvoda' u mnogo sirem smislu kao 71*7;' o nekoj znanstvenoj disciplini (Zelenika, 1990.,
233.)
Prema 'ormi znanstvenoga djela, potom, uputno je praviti razliku izmedu uvoda
koji prate magistarske radove, disertacije, znanstvene lanke, udbenike, prirunike itd.
Kod svih njih, naime, postoji potreba da se pojedini elementi uvoda - primjerice, predmet,
cilj istraivanja itd. - tretiraju na specifian nain.
Savjet koji se, na koncu, u pisanju uvoda moe dati, odnosi se i na njegovu
duljinu. Ni tu nema strogih pravila. Treba, i to je jedino pravilo, paziti da on ne bude ni
predug, ni prekratak. Uputno je, pri tome, slijediti logiku da uvod bude sto kraci. Koliko ce
to sto kraci i iznositi, nema strogih pravila. U principu to podrazumijeva nekoliko stranica
teksta, ali nikako ne vise od deset posto od opsega cijelog pisanoga djela, sto neposredno
zavisi o vrsti djela, sloenosti teme koja se tretira u djelu i slino, ali ni, u sluaju da je
djelo vece, od petnaest stranica teksta (Zelenika, 1990., 234.)
Sve navedeno, na koncu, upucuje na zakljuak kako je tesko govoriti i o postojanju
uzora u pisanju uvoda. Dapae. Istina jeste da, pri njegovu pisanju, treba paziti na to da se
u njemu nadu odredeni elementi. No, vrsto nije utvrden ni njihov broj ni njihov redoslijed.
254
Istina je, potom, da uvod ne smije biti ni prekratak, ni predugaak. Na koncu, nedvojbeno
je da, kako bi itatelja pridobio, on mora biti jasan, kratak, jezgrovit, sto ivlji i privlaniji.
8.1.1.1.4. S('./3*&/ ./7 ?*,*1+;'*79, .&'-,
Ovaj dio znanstvenoga djela uvijek dolazi iza uvoda. Razliiti ga autori oznaavaju
razliitim terminima - osnovni tekst, razrada, izlaganje materije i slino. Bilo kako bilo, radi
se o sredisnjem dijelu znanstvenoga djela, koji zauzima najvise prostora, koji je
najinventivniji, u kojem se, iscrpno i argumentirano - s ciljem potkrepljivanja, obrazlaganja
i dokazivanja postavljene hipoteze - izlae prikupljena grada, u kojem, na koncu, do
izraaja dolazi i autorovo znanje i sposobnost i istraivako iskustvo.
Sredisnji dio znanstvenoga djela u formi knjige u pravilu je sastavljen iz vise
cjelina - dijelova, glava, poglavlja, odsjeka i podosjeka, i svaka od njih je oznaena i
posebnim naslovom. U pravilu se, dakako, moe govoriti o tri zasebne cjeline izlaganja
znanstvenog djela u okviru njegova sredisnjeg dijela ili osnovnog teksta:
1. Povijesno-teorijski, retrospektivni ili eksplikativni dio u kojem se, koncizno i
jasno, iznosi povijest prouavanog problema, ali i naznauje znaaj, aktualnost i korisnost
istraivanja koje je provedeno.
2. Analitiko-eksperimentalni dio u kojem se iznose najbitnije znanstvene
injenice, podaci, teorije i zakoni, kojima se dokazuje ispravnost postavljenih hipoteza.
3. Perspektivni dio u kojem se, polazeci od rezultata istraivanja, trebaju
predloiti konkretna rjesenja, mjere i akcije za njihovu primjenu.
To, medutim, nikako ne znai da se sredisnji dio znanstvenoga djela, njegov
osnovni tekst, sastoji od samo tri cjeline. Dapae. Svaka od njih, a analitiko-
eksperimentalni dio posebice, moe imati vise zasebnih dijelova ili poglavlja.
Ako, pak, realizirano istraivanje ima za cilj dolazak do nekog praktinog rjesenja,
ta se injenica manifestira i u strukturi teksta koji nastaje kao rezultat provedenog
istraivanja. Takav se tekst, naime, u pravilu, sastoji iz dva dijela - teorijskog, u kojem se
prezentiraju teorijske osnove u vezi s konkretnim problemom istraivanja, te praktinog, u
kojem se nudi praktino rjesenje za konkretni problem. Dakako, esto je - buduci se oni
ispreplicu - tesko napraviti ostru crtu razgranienja izmedu teorijskog i praktinog dijela,
ostvariti tzv. iste tipove (vidjeti, Salitreic-Zugaj, 1985., 301-301.)
8.1.1.1.5. Z,5-&>4,5
Zakljuak znanstvenog i strunog djela je, uz uvod i sredisnji dio ili osnovni tekst,
najznaajniji dio svakog znanstvenog djela. U njemu su istaknuti svi odgovori na pitanja,
postavljena u uvodu, najvanija rjesenja postavljenog problema istraivanja. On, zapravo,
predstavlja krunu itava rada, sintezu svega onoga sto je prethodno analizirano - svih
relevantnih spoznaja, informacija, stavova, znanstvenih injenica, teorija i zakona iznijetih
u analitikom dijelu znanstvenoga djela - izloenu na nain koji je i sistematian, i koncizan
i jezgrovit u isto vrijeme.
Svi autori, doduse, ne koriste termin zakljuak. Taj termin zamjenjuju s,
primjerice, terminima rije na kraju, umjesto zakljuka, zakljune napomene i
slino. Sustina, medutim, koja se njima hoce postici ista je.
S druge strane, zakljuak se ne pojavljuje nuno u svim znanstvenim i strunim
djelima. Zaobici ga se ne moe u doktorskoj disertaciji, magistarskom radu, diplomskim i
seminarskim radovima. No, ne mora ga i ne treba imati udbenik, enciklopedija, leksikon,
prirunik itd.
U pisanju zakljuka treba voditi rauna, prije svega, o tome da on ne bude ni
prekratak, ali ni preopsean. Duljina mu je u izravnoj vezi s, primjerice, vrstom djela i
sloenoscu teme koja se u njemu obraduje. No, bez obzira na to, on ne bi smio prelaziti
deset posto od opsega ukupnoga djela. No, ako je ono vece, opseg zakljuka se moe
kretati do maksimalno petnaest stranica veliine kojoj je prilagoden i tekst ukupnoga djela.
S druge strane, snaga zakljuka se manifestira i u formi kojom je on izloen.
+ajnberg (Rajnberg, 1949.,106.), primjerice, sugerira da se zakljuci provedenog
istraivanja samu na sto je moguce manji broj - nikako ne vise od osam do dvanaest
255
zakljuaka. Preporua se, potom, da se svaki od njih i numerira - oznai arapskim ili
rimskim brojevima. Ako se, medutim, autor ne opredijeli za takav pristup, ako mu
pretpostavi slaganje zakljuaka u formi odlomaka (stavaka), u tom sluaju i veze izmedu
pojedinih odlomaka moraju biti vrste i logine. Ta vrsta veza, dakako, u sluaju
numeriranja zakljuaka nije neophodna.
Na koncu, zakljuak je sinteza svega uradenog, dio u kojem autor sabire svoje
misli, u kojem se on ponovo vraca u fokus itateljeve pozornosti. Stoga se ne preporua
navodenje u zakljuku citata drugih istraivaa i znanstvenika, ali ni prakticiranje fusnota.
Naprotiv, preporua se koristenje konciznih i jezgrovitih formulacija, ali i izbjegavanje
prakse da ih se iznosi istim rijeima i reenicama kao i u izlaganju materije.
8.1.1.1.6. S,C'+,5
Saetak (rezime, summary, Zusammenfassung) je dio koji se javlja, ili bi se trebao
nalaziti, u svakom znaajnijem znanstvenom djelu. Sama rije, dakako, upucuje i na
zakljuak o emu se radi - o saetom prikazu lanka ili djela u kojem se iznosi pregled, vrlo
kratak sadraj onoga sto je u uvodu, sredisnjem dijelu i zakljuku znanstvenoga djela
izloeno. Njime se, jos konkretnije, naznauju: 1) temeljna svrha i ciljevi istraivanja, 2)
primijenjena metodologija, 3) postignuti rezultati, te 4) bitni zakljuci (vidjeti, Silobric,
1983., 33 i 37.).
Pri tome, dakako, treba praviti razliku izmedu uobiajenog saetka i opsenog
saetka ili sinopsisa. Ovaj drugi je, naime, mnogo opsirniji, obino je skraceni oblik djela,
skracen prikaz djela a ne njegov saetak (Silobric, 1983., 34.). Znak jednakosti se, potom,
ne moe staviti - a to se ponekad ini - ni izmedu summary-a i abstract-a kao pojmova
koji se koriste u engleskom jeziku. Summary bi trebao sadravati samo zakljuke za
itatelje koji su proitali itav lanak. Abstract je, pak, saet prikaz lanka, razumljiv i bez
itanja preostalog teksta, te se moe objaviti neovisno od njega (u sekundarnim
publikacijama). Ta razlika nije uvijek tako jasna niti se razlikovanje primjenjuje (Silobric,
1983., 32.).
Koja je, dakle, funkcija saetka? Moe se, zapravo, govoriti o dvije. Zadaca mu je,
prije svega, da poslui javnosti kao informacija o nekom djelu. Buduci se moe praviti
nijansiranje izmedu dviju vrsta javnosti - domace i strane - logino je da se i saetak pise
na domacem i jednom od svjetskih jezika, obino engleskom. S druge strane, zadaca je
saetka i da itateljima omoguci brzu spoznaju bitnih obiljeja nekog djela i rasiscavanja s
pitanjem imaju li u njemu neeg zanimljivog za sebe i trebaju li ga uopce itati.
U pisanju saetka neka pravila nisu sporna. U pitanju su, naime, njegovi sastavni
dijelovi. U gornjem lijevom kutu nalazi se ime i prezime autora (ili vise autora), ispod
njega, na sredini, naslov rada, a ispod naslova tekst saetka.
U pisanju saetka, medutim, postoje razliiti pristupi. U znanstvenim lancima se,
primjerice, saetak na domacem jeziku nalazi obino na poetku, a na stranom jeziku na
kraju lanka. Ako se, pak radi o vecim znanstvenim djelima - doktorskoj disertaciji,
monografiji i slino - iskustva s pisanjem saetka su dosta razliita. Saetak i na domacem
i na jednom od svjetskih jezika moe se nalaziti na poetku, ispred sadraja. Moguce su
situacije da se saetak nalazi i iza svakog poglavlja. Najesce je, medutim, po nama i
najopravdanije ako se saetak nalazi na kraju knjige, ispred popisa literature i odmah iza
zakljuka.
Ponetko i ponekada ima obiaj staviti znak jednakosti izmedu saetka i zakljuka.
To, medutim, nije opravdano. Zakljuak se, naime, odnosi na glavne doprinose djela o
kojem je rije, dok se saetkom na jasan i koncizan nain daje pregled cjelokupnog djela,
ukljuujuci i zakljuak. Zbog te osobine saetak je i dio znanstvenoga djela koji je, uz
sadraj, pogodan za prenosenje informacija o djelu i bez osnovnoga teksta.
Zbog njegove pogodnosti kao forme u prijenosu informacija o djelu saetak trai i
da ga se pise uz strogo pridravanje odredenih pravila - da ga se pise, u pravilu, u jednom
pasusu, jednostavnim jezikom, u trecem licu i u pasivu, s potpunim i povezanim
reenicama, i u rasponu od 100-400 rijei. Pri tome je potrebna i naznaka da prosjean
saetak ima obino oko 250 rijei.
256
Vodeci rauna o svim postavljenim zahtjevima, u pravljenu saetka su moguce i
razliite pogreske. Cesta je, primjerice, pogreska da se pri pisanju saetka prepriava
naslov djela. To je, naprosto, suvisno. Pogreska je i inzistiranje u saetku na potankostima,
ali i spominjanje onoga ega u sredisnjem dijelu ili osnovnom tekstu uopce nema.
Moguce je, na koncu, praviti razliku izmedu vise vrsta saetaka. Prema sadraju,
primjerice, saetak se moe pojaviti u dva oblika:
kao informativni, kojeg moraju imati sva djela u primarnim znanstvenim
asopisima, jer se njime naznauju svrha i ciljevi istraivanja, primijenjena metodologija,
rezultati i bitni zakljuci (Silobric, 1983., 33. i 37.)
kao indikativni, u kojem se navodi samo sadraj djela, bez informacija o
metodama, rezultatima i zakljucima. Takav saetak se pise u jednom stavku i obino na
poetku konferencijskih priopcenja i preglednih lanaka.
8.1.1.1.7. P72/1 -/+'(,+>(' G8/8-/79(,:/&,H
Svako znanstveno djelo - neovisno o tome radi li se o obimnijem znanstvenom
djelu ili, pak, znanstvenom lanku - u svom sastavu ima i popis koristene literature ili
bibliografiju. Pri tome, dakako, treba praviti razliku radne (prethodne, orijentacijske)
bibliografije, koju istraiva sastavlja nakon izrade projekta znanstvenog istraivanja, i
konanog popisa koritene literature (konane bibliografije) - onog o kojem je ovdje rije -
a koji se stavlja na kraju znanstvenoga djela.
Konani popis literature ili konanu bibliografiju mnogi smatraju ogledalom svakog
znanstvenog djela, njegov dio koji, sam za sebe, govori i o autoru, njegovoj kulturi, odnosu
prema znanosti, njegovom osjecaju odgovornosti itd. Recite mi, naglasava jedan od
poznatih autora, kakav je bibliografski katalog (popis) u disertaciji pa cu vam reci kako se
njezin autor odnosi prema svojim znanstveno-literarnim dunostima (Rajnberg, 1949.,
101.).
Popis literature obuhvaca sve izvore koje je autor, u izradi svoga djela, na bilo koji
nain koristio - knjige, lanke, studije, prirunike, enciklopedije, rjenike, statistike,
propise, novine i slino. Pri tome se treba pridravati pravila da popis literature bude
potpun i toan, da su uneseni podaci u vezi s njom pouzdani i provjereni. Protivno je, osim
toga, znanstvenoj etici u popis literature unositi izvore koji nisu konzultirani, ali i izostavljati
one koji su, za potrebe konkretnog djela, konzultirani i upotrijebljeni. Popis literature,
potom, mora biti i suvremen, da je u njemu koristena najnovija literatura. Na koncu, on
mora biti i sistematian, uraden pregledno i po nekom usvojenom sistemu. Sistematinost
se, medu inim, postie i primjenom jedinstvenog kriterija u popisu literature. Literatura se,
dakako, moe sistematizirati prema razliitim kriterijima. Navodimo najvanije medu njima:
Sistematizacija koja slijedi tzv. alfabetski popis literature. Primijeni li se on,
navodenje literature slijedi kriterij abecednog redoslijeda prema prezimenu autora. Druge
znaajne izvora - rad li se o knjizi, lanku, enciklopediji, priruniku itd. - u tom sluaju nisu
relevantne.
Sistematizacija prema vrsti djela. U nainu razvrstavanja po ovom kriteriju se,
medutim, daju sresti razlike medu autorima. Za jedne, najesci je sluaj da se sve
bibliografske jedinice svrstavaju u etiri skupine i to: 1) knjige, 2) lanci, 3) nepotpisani
napisi i 4) ostali izvori (Zelenika, 1990., 221.). Drugi, opet, u tom tipu razvrstavanja,
razlikuju slijedece skupine izvora: referentne publikacije (enciklopedije, prirunici,
rjenici), knjige i bibliografije, asopisi, znanstveni i tehniki izvjestaji itd. (Zugaj,
Dumiic, Dusak, 1999., 265.). Primijeniti se, dakako, moe i jedan i drugi, ali i neki
potpuno treci, pod pretpostavkom, dakako, da slijedi odreden princip grupiranja.
Sistematizacija literature prema jeziku na kojem je djelo napisano. U tom se
sluaju razvrstavanje vrsi samo po pripadanju istom jeziku. Ostale se znaajke izvora
zanemaruju.
Osim ovih, koji su najesce primijenjeni, susresti se mogu i neki drugi kriteriji
sistematizacije koristene literature. Primjerice:
Sistematizacija prema vremenu nastajanja konkretnog izvora. Primjeni li se taj
kriterij razvrstavanja u popisu literature, grupiranje ce biti izvrseno prema godini nastajanja
257
svake bibliografske jedinice. Sve bibliografske jedinice, primjerice, nastale u istoj godini
naci ce se grupirane na istom mjestu, jedna iza druge.
Sistematizacija prema zemljama podrijetla izvora. Zasebno ce, primjeni li se ovaj
kriterij razvrstavanja, biti grupirani svi izvori podrijetlom iz SDA, zasebno oni iz Francuske,
Engleske, Njemake, Rusije itd.
Bez obzira, medutim, koji kriterij razvrstavanja bio primijenjen, postoje pravila
kojih se autor mora pridravati u navodenju bibliografskih izvora. Minimum, koji svaki
bibliografski izvor (ili jedinica) mora sadravati, obuhvaca: prezime i ime autora (ili grupe
autora), naslov djela, izdava, sjediste izdavaa (mjesto), te godina tiskanja djela.
Primjerice:
Kesic, Tanja: Integrirana marketinka komunikacija: oglaavanje, unapredenje
prodaje, Internet, odnosi s javnou, publicitet, osobna prodaja, Opinion d.o.o., Zagreb,
2003.
U ovoj se formi navodenja bibliografskih jedinica, opet, mogu primijeniti razliiti
pristupi. Ime autora, koje ide iza prezimena, od prezimena se moe - ali i ne mora -
odvojiti zarezom, moe ici u punom tekstu, a moguce je navesti samo prvo slovo imena i
iza njega staviti toku itd. Ako je vise autora, u principu se prezime prvog stavlja ispred
imena, a kod svih ostalih ime ide ispred prezimena itd.
Ako se, pak, radi o znanstvenom lanku, objavljenom u zborniku ili znanstvenom
asopisu, bibliografska jedinica mora sadrati prezime i ime autora, naziv znanstvenoga ili
strunog lanka, ime znanstvenog asopisa ili zbornika radova, izdava, godina tiska
asopisa ili zbornika, kod znanstvenog asopisa i broj (i mjesec izlaska iz tiska) asopisa, te
stranice zbornika ili asopisa na kojima se lanak nalazi, primjerice:
Kukic, Slavo: Bosanskohercegovaki mediji i novinarski profesionalizam,
Mostariensia, Sveuiliste u Mostaru, 8/1998., 29.-38.
I u ovom su sluaju, dakako, kao i u prethodnom, moguce razliite varijacije. No,
moguci su i drugi pristupi u navodenju bibliografskih jedinica. Detaljniji pregled mogucih
pristupa daju, medu inima, ugaj, )umi.i2 i )u0ak (vidjeti Zuga, Dumiic, Dusak, 1999.,
266), koji izdvajaju slijedece primjere:
Smith John, Economic Theori and Operations Analysis, Brown Co., New
York, 1961., p.625.
Akademia Nauk SSSR, Problema cennosti v filosofu, Moskva, 1966.
Cohen James, The Statistical Facts of Income Distribution, E)7*76/)
J7>(*,-, V, 5, 1959, 50-62.
Cohen James, The Statistical Facts of Income Distribution, Economic
Journal, V, (5, 1959), 50-62.
Beitz, Charles R. 1979. Political Theory and International Relations.
Princeton, N.J: Princeton University Press.
Bakalovic H: Istraga u krivinom postupku, Svjetlost, Sarajevo, 1979.
Closets F. de, Toujours plus, Paris, Grasset, 1982.
(Kirst 82) Kirstein, P. et al. The UNIVERSE Project, Proc ICCC'82, 442-
447, North Holland, September 1982.
8.1.1.1.8. I*.'51 27&67;, / /6'*,
Iako se u ivotu esto moe naici na sluajeve u kojima su izostavljeni i indeks
pojmova i indeks imena, ni jedno obimnije znanstveno djelo (knjiga, udbenik) ne bi smjelo
258
izostaviti ovaj dio knjige. Oni, naime, knjigu ine znatno upotrebljivijom, olaksavaju
snalaenje u njoj i omogucuju bre pronalaenje imena i pojmova koji itatelja zanimaju.
Iz naziva je, potom, evidentno da se radi o dvije sastavnice - indeksu pojmova i
indeksu imena. U vezi s njihovim navodenjem moguci su razliiti pristupi:
da se indeks pojmova i indeks imena navode kao zasebni dijelovi knjige,
da indeks pojmova i imena (ili imena i pojmova) ini jedinstvenu cjelinu.
Ako se autor opredijeli za indeks pojmova i indeks imena kao zasebne cjeline, one
ce doci jedna iza druge odmah nakon popisa literature.
U tom se sluaju u indeksu imena, i to abecednim redoslijedom, navode sva
imena koja se u djelu spominju, ukljuujuci i ona koja se javljaju u bibliografiji i popisu
literature. Uz navedena se imena - pri emu se prvo navodi prezime, a potom ime (ili samo
prvo slovo imena) - navode i brojevi stranica na kojima se imena spominju. Moguci su,
doduse, razliiti pristupi, u slaganju indeksa imena. Navodimo dva karakteristina pristupa:
Prvi primjer: (Kukic, S.: Sociologija, teorije drutvene strukture, Sarajevo
Publishing, Sarajevo, 2004., 555.)
Keynes, J., 528
Khaldun, I., 68,69,93,496
King, M.L., 308, 393
U ovoj vrsti pristupu autor se zadovoljava navodenjem imena autora i broja
stranice ili stranica na kojima se on pojavljuje.
Drugi primjer: (Hodic, Kadrija: (Re)privatizacija i globalizacija, Ekonomska misao
privatizacije, privatnog vlasnistva i slobodnog trista u globalnoj privredi, Forum Bosnae,
22/2003. Medunarodni forum Bosna, Sarajevo, 2003., 536.)
Cheryl, L., 429n70
Cheung, A., 140
Chick, V., 249
U ovoj vrsti pristupa autor, pored stranice na kojoj se nalazi ime autora - ako ono
nije u tekstu nego u napomeni (fusnoti) - navodi i redni broj napomene (fusnote) u kojoj
se konkretno ime spominje. U nasem sluaju, primjerice, ime Cheryl se spominje na
stranici 429, u fusnoti br. 70.
Kod indeksa (ojmova, ako se on javlja kao zasebna cjelina, autor vrsi popis
pojmova iji pregled eli dati. U tom je sluaju nesporno da se pojmovi navode u popisu
abecednim redom. No, i kod ovog indeksa su moguci razliiti pristupi u slaganju pojmova. U
nastavku slijede primjeri tri moguca pristupa u slaganju indeksa pojmova:
Prvi primjer: Kesic, Tanja: Integrirana marketinka komunikacija: oglaavanje,
unapredenje prodaje, Internet, odnosi s javnou, publicitet, osobna prodaja, Opinion
d.o.o., Zagreb, 2003., str. 620.)
Ilustracija, 56
Imid, 102, 103
Imid marke, 116,118
Ovaj pristup, kako se i vidi, karakterizira da su uz naziv pojma otisnuti brojevi
stranica na kojima se ti pojmovi - u siroj ili uoj manifestnoj formi - i pojavljuju.
Drugi primjer: (Milerlaj, D.: Organizacija industrije proizvodnje, Ekonomski
fakultet, Osijek, 1977., 333., preuzeto od Zugaj, M., K. Dumiic, V. Dusak: Temelji
znanstvenoistraivakog rada, Fakultet organizacije i informatike, Varadin, 1999., 268.)
Organizacija (ada, 20,120, 628
U navedenom primjeru u oi upadaju boldirana slova i brojevi. O emu se radi?
Boldirano slovo O kod Organizacija i ( kod rada. Ta boldirana slova upucuju
itatelja da u tekstu ima poseban naslov Organizacija rada, dakle poglavlje ili
podpoglavlje, koje je posveceno organizaciji rada. Boldirana prva brojka, u ovom sluaju
broj 20, oznaava i stranicu u tekstu na kojoj se naslov Organizacija rada nalazi. Drugi
259
broj, koji nije boldiran, upucuje na stranicu na kojoj se navedeni pojam spominje. Na
koncu, treci broj, koji je takoder boldiran - u nasem sluaju broj 628 - upucuje da se o
istom pojmu, organizaciji rada, raspravlja sire, ali u sastavu drugog poglavlja, drugog
naslova.
Treci primjer: (esic, B.: Osnovi metodologije drutvenih nauka, Nauna knjiga,
Beograd, 1974., 338.)
SINTEZA
- pojam - 78
- dijalektika - 3, 78-79, 82f
- vrste - 80f
- i analiza - 78ff
Navedeni primjer, zapravo, upucuje na tri vrste podataka u indeksu pojmova. Prva
se odnosi na stranicu, na kojoj se navedeni pojam nalazi. Druga vrsta podataka, kod koje
uz broj stranice ide i slovo f, informira itatelja da se na toj stranici navedeni pojam
detaljnije razraduje. Napokon, kod podataka koji uz broj stranice imaju otisnuto i duplo
slovo f (kao ff), ono upucuje itatelja da je konkretnom pojmu posvecena i posebna
glava ili poglavlje.
Ako, pak, imamo posla s indeksom pojmova i imena kao jedinstvenom cjelinom,
razlika u odnosu na prethodnu, situaciju u kojoj su ta dva indeksa odvojena, je tek utoliko
sto se - abecednim redoslijedom - navode i jedni i drugi. Sve druge posebnosti, koje su
vec markirane, do izraaja mogu doci i u takvom, jedinstvenom indeksu pojmova i imena.
Na to, uostalom, upucuje i slijedeci primjer:
Primjer: (Robbins, S.P: Bitni elementi organizacijskog ponaanja, MATE, Zagreb,
1996., 312.)
Stone, Eugene F., 73
Stott, Russell G., 73
Strategija imitacije, 211-12
Strategija inovacije, 211-12
8.1.1.2. O1+,-/ ./&'-7;/ ?*,*1+;'*' 5*&/9'
8.1.1.2.1. M7+7
Moto se, u principu, smatra perifernim dijelom knjige. No, autori se ponekada
odluuju staviti ga. Ako to ine, mjesto mu je na samom poetku, odmah iza naslova
znanstvenoga djela. Osim toga, moto se moe prakticirati i na poetku svakog poglavlja,
odmah ispod naslova poglavlja. Kada su, pak, po srijedi doktorske disertacije i magistarski
radovi - djela internog karaktera - u njima se moto ne prakticira. No, pogrijesiti se nece i
ako ga se i iskoristi.
Pod motom (geslom, lozinkom, epigrafom) treba podrazumijevati ostroumnu ili
duhovitu izreku, citat, frazu, poslovicu kojom se eli poslati odredenu poruku ili izraziti
karakter teme.
8.1.1.2.2. P71;'+,
Kao i moto, i posveta se smatra perifernim dijelom znanstvene knjige. Inae,
posveta predstavlja izraz potrebe autora da se nekome posebno zahvali za inspiraciju,
potporu, iskazano razumijevanje ili ljubav. U pravilu je ta potreba usmjerena prema
roditeljima - ili jednom od njih, suprunicima, djeci ili cijeloj obitelji, a moe i uzorima,
prijateljima i slino.
Ako se autor opredijeli na posvetu kao dio svoga djela (knjige, monografije itd.),
mjesto joj je takoder na samom poetku knjige, iza mota a ispred pregovora - ukoliko on
postoji - i sadraja znanstvenoga djela.
260
O opravdanosti posvete postoje razliita misljenja. Medu njima je znaajan udio i
onih koji prema posveti imaju negativan odnos. Posvecuje li, misljenje je knjievnika
Pavli.i2a, ovjek knjigu svojoj eni, onda je vrlo alosno ako misli da joj s tom jednom
knjigom moe zahvaliti za sve ono sto je za njega uradila u ivotu. Slina je stvar i s
posvecivanjem knjige obitelji jer ona vas voli i bez knjige, a ako ne voli nece pomoci ni
knjige (vidjeti u Plevnik, 1986., 33.)
8.1.1.2.3. P('.97;7(
Mnogi su skloni stavljati znak jednakosti izmedu predgovora i uvoda pa, sukladno
tome, tu cjelinu naslovljavati ili kao pregovor ili kao uvod
53
. Drugi, opet, na predgovor i
uvod gledaju kao na zasebne i podrazumijevajuce sastavne dijelove znanstvenoga djela.
54
Na predgovor smo, medutim, skloni gledati kao na dio znanstvene knjige koji ne
treba shvatiti kao njezin obvezan sastavni dio. Sve to, dakako, ne znai kako je predgovor i
svojevrsni balast znanstvenom djelu. Dapae. Ozbiljnija znanstvena djela u pravilu u
svojem sastavu - iza posvete, a ispred sadraja - imaju predgovor. S druge strane,
neophodno je dobro poznavati sustinu i znaajke i predgovora i uvoda kako ne bi doslo do
mijesanja elemenata koji pripadaju jednom i onih koji pripadaju drugom.
Kako dakle, definirati predgovor? Po jednima, on je preliminarno objasnjenje
znaenja djela i motiva rada, mora se odnositi na cjelokupno djelo, mora dati opcenite
karakteristike, on je jedinstven nazivnik znanstvenog djela (Salitreic, Zugaj, 1985.,
285.). Za druge, opet, predgovor je dio znanstvenog djela, po pravilu kratak i opceg
karaktera, u kojem se obino iznose razlozi koji su autora podstakli da djelo napise, kao i
eventualni dug koji ima prema drugima - suradnicima na poslu, starijem kolegi, nastavniku
ili rukovoditelju (amic, 1980., 87.). Treci, na koncu, predgovor definiraju kao tekst na
poetku knjige koji objasnjava glavni tekst, daje podatke koji olaksavaju itanje i
razumijevanje glavnog teksta (Anic, 1991., 525.).
Bilo koje, medutim, odredenje predgovora prihvatili, njegovo je razlikovanje u
odnosu na uvod sigurno tek nakon sto mu se preciziraju osnovne znaajke. A one,
zna.ajke (redgovora mogu se pojaviti kao formalne i kao sadrajne.
Medu formalnim znaajkama predgovora istiu se posebice:
1. Kratkoa. Predgovor, u pravilu, treba biti kratak i jezgrovit, redovito kraci od
uvoda, napisan na najvise od nekoliko, a najesce na samo jednoj stranici.
2. Openitost, a to znai da se u njemu iznose opcenite informacije, opci putokaz,
upozorenje i slika o djelu od koje esto ovisi i hoce li ono biti proitano ili ne.
3. Po svojem poloaju u djelu predgovor je na prednjem dijelu znanstvenoga
djela, a po redoslijedu pisanja on je, zapravo, pogovor buduci se, u pravilu, pise posljednji,
nakon sto je djelo zavrseno.
4. Pisac predgovora obino je autor. Ako ga, medutim, pise neka druga osoba, a
moe, on postaje i sadrajno drugaiji, dobiva karakter svojevrsne recenzije i preporuke i
djela i njegova autora.
5. Predgovor u novim izdanjima se prakticira u sluaju da se autor, zbog toga sto
je ranija naklada rasprodana, opredijeli za novo izdanje djela. U tom se sluaju, uz stari
predgovor - ili predgovore ako je bilo vise izdanja - pise i novi. Smisao mu je
pojasnjavanje razlika izmedu novog i starog - ili starih izdanja.
6. U sluaju da se prevodi djelo stranog autora, prakticira se predgovor u
prevedenim djelima, koji se objavljuje uz predgovor autora. Njega obino pise istaknuti
strunjak iz oblasti kojoj pripada konkretno djelo, a cilj mu je upoznavanje itatelja s
autorom, njegovim znanstvenim opusom, ali i drugim pojedinostima
U predgovoru se, medutim, u pravilu moe pronaci i nekoliko tzv. sadrajnih
znaajki. Takve su, primjerice:
53
"Uvod ili predgovor sadri: prvo - objasnjenje teme i drugo - izlaganje postavljenog cilja, zadataka,
namjere rada (Rajnberg, 1949., 91.), pri emu pod predgovorom podrazumijeva skraceni uvod.
54
Predgovor je "po pravilu, kratak i opceg karaktera. Po tome se najvise i razlikuje od uvoda koji je,
opet, ,veceg obima od predgovora...
261
1. Svrha, ciljevi i zadaci istraivanja, koje autor u predgovoru, sto je moguce
jasnije, markira.
2. Motivi - razlozi, zbog kojih se je autor djela odluio pisati o odredenoj temi, a
mogu biti veoma razliiti - od toga da nema udbenika ili prirunika za odredeni kolegij na
fakultetu, preko elje za afirmacijom (u sluaju da se radi o mladom i neafirmiranom
znanstveniku), do potrebe da se istrai podruje koje je nedovoljno istraeno.
3. Kome je djelo namijenjeno. Odgovor na to pitanje, doduse proizlazi i iz motiva
i razloga zbog kojih je djelo napisano. Ali, odgovor na to pitanje nije suvisno dati i
eksplicitno.
4. Upoznavanje itateljstva s potekoama, na koje je autor pri pisanju
znanstvenoga djela naisao, takoder je jedna od znaajki predgovora znanstvenoga djela. A
te poteskoce mogu biti razliite. Najesce je, dakako, rije o poteskocama na koje je autor
djela naisao tijekom istraivanja. Iskljuena nije mogucnost postojanja i drugih poteskoca -
od pomanjkanja financijskih sredstava do poteskoca terminoloske naravi.
5. Zahvalnost suradnicima gotovo redovito je jedan od elemenata od kojih se
sastoji predgovor. Ona treba biti izraena diskretno, bez pretjerivanja, ali i bez ignoriranja
dobivene pomoci.
8.1.1.2.4. P72/1 +,8-/), / /->1+(,)/&,
Ako se u sastavu znanstvenoga djela nalaze i razliite vrste ilustracija (tablica i
slika), grafikona, fotografija, kratica i drugih priloga, njihov popis, sa brojem stranica djela
na kojima se mogu pronaci, nalazi se odmah iza sadraja djela. Svi oni su, medutim, fiziki
smjesteni u dodatku, dakle, iza popisa literature.
8.1.1.2.5. D7.,+,5 G,2'*./510 2(/-7?/0 .72>*'H
Ako znanstveno djelo (knjiga) ima dodatak (apendiks, dopunu, prilog) on dolazi na
gotovo samom kraju znanstvenoga djela - iza popisa literature a ispred indeksa pojmova i
imena (ili indeksa pojmova i indeksa imena). U dodatak ulazi sve sto itatelju moe pomoci
u itanju osnovnoga teksta - zanimljivi prikazi, anketni upitnici, grafikoni, slike i tablice,
abecedni popis najznaajnijih kratica s naznakom njihova znaenja i slino.
8.1.2. D/&'-7;/ ?*,*1+;'*79 4-,*5,
Strukturu znanstvene knjige u znaajnom dijelu prati i struktura znanstvenog
lanka. No, za njega su, uz sve to, karakteristine i neke specifinosti. Stoga postoji
potreba barem ukazati i na ustaljene dijelove znanstvenoga lanka. Detaljnije se, medutim,
kanimo zadrati samo na onim dijelovima koji su svojstveni samo znanstvenom lanku.
Radi li se, primjerice, o izvornom znanstvenom lanku, njegovi ustaljeni dijelovi su:
1. Naslov, u vezi s kojim vrijede sve upute koje se odnose i na naslov u
znanstvenoj knjizi. Ako, pak, koja specifinost i postoji, ona se odnosi na duljinu naslova. U
znanstvenom lanku se, tako, tolerira nesto dulji naslov, ali ni ovdje on ne bi trebao
prelaziti pedeset slova, odnosno 10-15 rijei.
2. Autor ili autori. Ako se radi o autoru, problem u tom sluaju i ne postoji.
Potrebno je, dakle, znati jedino da njega treba navesti odmah nakon naslova. Ako je, pa, u
pitanju vise autora - a suvremeni znanstveni rad tu situaciju sve esce podrazumijeva -
problem autora se postavlja u znaajno ozbiljnijoj formi. Takva situacija trai odgovor na
pitanje tko ce biti naveden kao prvi autor, tko ce sve biti naveden kao dio autorskog tima
itd. U pravilu se smatra da prvi autor treba biti onaj tko je na radu najvise radio, najesce
rad osobno i pisao. Ostali se - iako je i to dio dogovora - najesce navode abecednim
redom.
3. Saetak se u znanstvenom lanku nalazi, ili izmedu naslova i teksta - sto je
prirodnije - ili na kraju lanka. Konkretno mu mjesto, u pravilu, u uputama autorima
propisuju asopisi, urednici zbornika itd. Neovisno, medutim, o tome gdje se nalazio,
saetak mora sadrati podatke o ciljevima istraivanja i kako su oni ostvareni, te o
262
rezultatima i zakljucima, a sve radi toga da itateljima stvori mogucnost brzog otkrivanje
vanih dijelova sadraja lanka i donosenja odluke hoce li ga itati ili ne.
4. Uvod je dio znanstvenoga lanka u kojem se navode podaci o predmetu, svrsi i
opsegu istraivanja, itateljstvo se upoznaje s rezultatima srodnih istraivanja, formuliraju
se hipoteze itd.
5. Koritene metode su dio rada koji slijedi nakon uvoda, a svrha mu je detaljno
iznosenje informacija o koristenim sredstvima i postupcima sto drugima omogucuje da
izvrsi provjeru i postupaka i dobivenih rezultata.
6. Rezultati istraivanja su najznaajniji dio lanka u kojem se, jasno i precizno,
istie i opisuje sve bitno do ega se tijekom istraivanja doslo.
7. U diskusijikoja je zaseban dio znanstvenoga lanka, se dobiveni rezultati
kompariraju s rezultatima drugih istraivanja, postavljena hipoteza odbacuje ili prihvaca,
navode se rezultati koji nisu oekivani, daju prijedlozi za buduci rad itd.
8. Popis citirane literature dolazi na kraju znanstvenoga lanka. Iako detaljnije
naloge u vezi s popisom literature daje urednistva asopisa ili zbornika znanstvenih radova,
on slijedi priblino ista pravila koja vrijede i za popis literature kod znanstvene knjige.
U nekim situacijama znanstveni lanak moe sadrati i zahvalu za pomoc kolegama
i suradnicima, institucijama koje su osigurale financijsku potporu i slino. Ako se, pak,
autor - ili autori - opredijele na zahvalu, njezino je mjesto, u pravilu, izmedu diskusije i
popisa citirane literature.
8.2. DOK$MENTA"IJSKA OSNOVA R$KOPISA
Pod znanstvenom dokumentacijom razliiti autori ne podrazumijevaju istu stvar
55
.
Pod dokumentacijskom osnovom rukopisa se, u ovoj analizi, podrazumijevaju etiri
sastavnice:
1. citati,
2. podnosci (fusnote, napomene),
3. konana bibliografija i
4. ilustracije.
Pitanje konane bibliografije vec je tretirano u kontekstu dijelova znanstvene
knjige (vidjeti poglavlje 8.1.1.1.7 Popis literature (bibliografija)). Stoga se nastavak analize
posvecuje ostalim sastavnicama znanstvene dokumentacije.
8.2.1. "/+/(,*&'
Sako znanstveno i struno djelo u svojem sastavu sadri dvije vrste teksta - jednu
koja izraava autorovu misao, spoznaje i ideje, i drugu koja je manifestacija tudih misli i
spoznaja. Koristenje tih, dakle, tudih misli, spoznaja, podataka i ideja nije zabranjeno. No,
postoje procedure kojih se, u tom sluaju dakako, autor mora pridravati. Te procedure se
u znanosti oznaavaju terminom citiranje. Good i Scates (vidjeti Good i Scates, 1967,
671-672.), doduse, pojam citiranja shvacaju i nesto sire. Oni, naime, prave razliku izmedu
izravnih (neposrednih) i neizravnih (posrednih) citata. Pri tome se pod neizravnim
(posrednim) citatima podrazumijeva parafraziranje i prosudivanje, i kod njega se niti ne
upotrebljavaju navodni znaci, ali se odgovarajucim podnoskom (fusnotom) treba naznaiti
parafrazirani izvor. U protivnom, ako se ne navede izvor iz kojeg je tekst preprian ili
podaci iz njega interpretirani na svoj nain, radi se o plagijatu.
Neizravni citati, medutim, u Good-Scatesovom znaenju toga pojma, nisu predmet
ove analize. Sukladno tome, pod citiranjem se podrazumijeva samo pismeno ili usmeno
navodenje, i to od rijei do rijei, tudih rijei ili dijelova teksta u vlastitom znanstvenom ili
strunom radu.
Svrha citiranja u znanstvenim i strunim radovima je doista raznolika. Citiranjem
se, prije svega, ilustrira neki problem. Citat, potom, esto slui i kao dokaz, iako mu tu
55
Za amica i Zugaja, primjerice, znanstvena dokumentacija podrazumijeva citate, podnoske
(fusnote) i konanu bibliografiju. S druge strane, pod znanstvenom dokumentacijom Zelenika
podrazumijeva citate, pozivne biljeske (fusnote) i ilustracije.
263
dimenziju, u pravilu, treba izbjegavati buduci u funkciji dokaza moraju biti vlastiti, a ne tudi
argumenti. Citatom se nerijetko, pozivom na odredeni autoritet, argumentira i vlastita
misao.
Bez obzira, medutim, u kojem ga se svojstvu i s kojim ciljem koristilo, u citiranju
treba imati mjeru. U protivnom, oni mogu biti uzronici gusenja autorove sopstvene misli,
umanjenja originalnosti i vrijednosti njegova teksta, ono sto se predstavlja vlastitim radom
prestaje biti to i postaje, $hamsonovim (amson) jezikom govoreci, donje rublje stranih
ljudi, prerasta u tzv. citatologiju.
Uvaavajuci sve to, citiranje podrazumijeva i pridravanje odredenih pravila.
Najvanija medu pravilima citiranja su i posebno apostrofirani:
1. Citat se svojim sadrajem mora uklapati u tekst na nain da s njime ini
organsko jedinstvo, da se ne osjeca nikakav prijelaz s vlastitog teksta na citat.
2. U pravilu, citat ne smije biti predugaak. Samo u izuzetnim sluajevima
dopusta se da on bude dui od nekoliko redaka, ponekada i od jedne stranice.
3. U pravilu se, potom, citira iz prve ruke.
4. Odstupanje od ovog pravila se dopusta samo u posebnim sluajevima,
primjerice ako primarni izvor nije dostupan. U tim se sluajevima pribjegava citatu iz
druge ruke, citiranju citata. No, u tom se sluaju treba pridravati pravila da se navedu svi
potrebni elementi o originalnom djelu, a tek potom napomena da je citirano prema,
dakle navode se svi potrebni elementi i o autoru od kojeg je citat preuzet. Primjerice:
Kustic, Z., Velike religije svijeta, Zagreb, 1974., str. 32., citirano prema
Kukic, S., Sociologija, teorije drutvene strukture, Sarajevo Publishing,
Sarajevo, 2004., str. 332.
Pri tome su, dakako, moguce i razliite vrste skracivanja, na sto - u dijelu o
sustavima citiranja - upozorava i nastavak ove analize.
5. Ukoliko je citat u originalu napisan boldom (masnim slovima) i kurzivom, kod
citiranja ga se u toj formi mora i prenijeti. S druge strane, ako je citat u originalu napisan
obinim tekstom, a autor ga pri citiranju, ili samo jednu ili vise rijei u njemu, eli boldom
ili kurzivom istaci, duan je u podnosku (ili napomeni uz istaknuti dio citata) navesti
podvukao autor ili kurziv je nas.
6. Dio iz drugog djela, ako je ono napisano na nekom od stranih jezika, moguce je
citirati na jeziku kojim je napisan, a moguce ga je i prevesti na jezik djela u kojem se citira.
to ce se od toga uiniti zavisi, prije svega, o tome o kakvom se djelu radi i kome je ono
namijenjeno, ali i kojeg nivoa vanosti je konkretni citat. Radi li se, primjerice, o strogo
znanstvenom djelu, ako je, uz to, ono namijenjeno strunjacima ili pak stranoj publici,
prakticirati ce se citat na jeziku kojim je napisan. U tom bi se sluaju prijevod citata na
jezik autora djela trebao naci u fusnoti. Ako je, pak, djelo namijenjeno sirem krugu
itatelja, ili je citat napisan na jeziku koji ne spada u grupu svjetski rasprostranjenih, u tom
je sluaju loginije oekivati da on bude preveden na jezik autora djela u kojem se citira.
No, u tom je sluaju, isto tako, logino i da citat u svojem originalu bude naveden u fusnoti.
to ce, u svakom konkretnom sluaju, autor djela uiniti, za sto ce se opredijeliti, ovisi
iskljuivo o njemu.
7. Temeljno pravilo kod citiranja glasi: preuzeti tekst drugog autora se stavlja
medu znakove navodenja (), a potom se, u fusnoti ili napomeni uz citirani tekst, navodi
i djelo iz kojeg je citirano, ili iz kojeg je citat nekog drugog autora preuzet. Ako se, pak,
citira drugog autora, i ako se u preuzetom tekstu nalazi i citat nekog drugog autora kojega
je on citirao, taj se dio stavlja u polunavodnike ('').
8. Ako se u dijelu teksta koji se citira, zato sto su nezanimljive i slino, ispusti
jedna ili vise rijei, to se itatelju mora dati do znanja na nain da se na mjesto ispustenih
rijei ili dijela teksta stavi zagrada s tri tokice ().
Primjer:
Originalni tekst: Bogardus predlae klasifikaciju koja takoder respektira
vise kriterija, a koja predvida razlikovanje sest klasifikacijskih grupa.
Citat s ispustanjem: Bogardus predlae klasifikaciju () koja predvida
razlikovanje sest klasifikacijskih grupa.
Cini li se, pak, to, mora se voditi rauna da se ispustanjem jedne ili vise rijei ne
izgubi izvorni smisao misli njihova autora.
264
9. Citatu se ponekada moe ponesto i dodati kako bi smisao citiranja bio
upotpunjen. No, u tom se sluaju dodatak takoder stavlja u zagradu, a uz njega je moguce
staviti i inicijale autora kako bi se znalo da se radi o njegovu dodatku, a ne dijelu citiranog
teksta. U koristenom citatu to bi moglo izgledati na slijedeci nain:
Bogardus predlae klasifikaciju koja takoder (kao i kod Gurvitcha,
Simmela, Beckera i drugih - K.S) respektira vise kriterija, a koja
predvida razlikovanje sest klasifikacijskih grupa.
10. Na koncu, u citiranom se tekstu zadravaju sve njegove posebnosti, pa i
eventualne, ako ih ima, pravopisne ili materijalne pogreske. U tom ce sluaju, medutim,
autor koji citira, navedene pogreske, ako ih primijeti, odmah iza njih prokomentirati
latinskom rijei sic, s usklinikom iza nje i sve to smjesteno izmedu zagrada - dakle, kao
(sic!), a to - buduci latinska rije sic znai tako - ima znaiti komentar tipa tako autor.
Primjer: Sustav normi i pravila ponasanja unutar gripe (sic!) i grupe prema vani
Kod citiranja ili navodenja literature se moe koristiti vise naina ili sustava
citiranja - Harvardski, numeriki, abecedno-numeriki itd.
A. U "arvardskom sustavu citiranja se u tekstu, ako je moguce na kraju
reenice, stavlja samo prezime autora i godina publikacije, primjerice (Kukic, 2004), a u
popisu literature referenca bi se, postujuci abecedni redoslijed, navela na slijedeci nain:
Kukic, S. Sociologija, teorije drustvene strukture, Sarajevo Publishing,
Sarajevo, 2004., ili
Kukic, S. (2004). Sociologija, teorije drustvene strukture. Sarajevo.
Publishing Sarajevo.
Unutar ovoga sustava je, osim toga, moguce i prosirenje brojem stranice u tekstu.
U konkretnom sluaju se to prosirenje moe izvesti kao (Kukic; 2004; str. 354) ili samo kao
(Kukic; 2004., 354).
Osnovna prednost Harvardskog sustava citiranja je u tome sto reference nisu
numerirane pa ih je relativno jednostavno naknadno ubacivati ili, pak, izbacivati iz teksta.
Nedostatak mu je, medutim, vezan za injenicu da zauzima relativno dosta prostora i
povecava obujam teksta, posebice ako se koristi veliki broj referenci. Ono sto, potom, kod
ovog sustava moe biti problem jeste mogucnost da medu referencama nadu dva djela
istog autora iz iste godine. U tom se sluaju pribjegava rjesenju da se jedno od djela oznai
s a, a drugo s b.
%. Kod numeri.kog sustava citiranja redni broj reference se odreduje temeljem
redoslijeda njezina pojavljivanja u tekstu. Redni broj reference se, dakle, stavlja u zagradu
kojom se referenca oznaava. Primjerice, ako je citat iz udbenika Sociologija, teorije
drustvene strukture dvanaesti po redu u rukopisu nekog djela, uz citat stavlja broj 12 u
formi (12), a u popisu literature se, na rednom broju 12, stavljaju svi podaci uz citirano
djelo, dakle:
Kukic, S. Sociologija, teorije drustvene strukture, Sarajevo Publishing,
Sarajevo, 2004., ili
Kukic, S. (2004). Sociologija, teorije drustvene strukture. Sarajevo.
Publishing Sarajevo.
Ako se, potom, navedeno djelo citira jos koji put, redni broj prvog citiranja, u
nasem sluaju br. 12, se uvijek zadrava. Dakako, redni broj pojavljivanja odredenog citata
se - sto je jos prihvatljivije - moe i dopunjavati i brojem stranice citiranog djela kako bi se
imao detaljniji uvid u to gdje je u citiranom djelu navod smjesten. U konkretnom primjeru
to bi izgledalo ovako: (12., 134) ili (12; 134), pri emu br. 12 oznaava da se radi o
referenci koja je prvi put citirana dvanaesta po redu, te da se citat nalazi na 134. stranici
navedene reference.
I ovaj sustav citiranja ima svojih i dobrih strana, ali i nedostataka. Dobra mu je
osobina jednostavnost referenci u tekstu. Nedostaci mu se, medutim, ispoljavaju i u odnosu
na autora i u odnosu na itatelja. to se autora tie, problem je u tome sto se, ako se takva
potreba naknadno ukae, ne mogu ubacivati bez teskoca nove reference izmedu vec
postojecih jer se remeti napravljeni redoslijed. to se, pak, itatelja tie, problem je vezan
265
za injenicu da numeriki sustav u popisu literature ne slijedi abecedni red nego redoslijed
prvog pojavljivanja, a to itatelju oteava snalaenje.
". Abecedno4numeri.ki sustav citiranja je svojevrsna kombinacija dvaju
prethodnih. U rukopisu se, naime, citati navode po redoslijedu prvog pojavljivanja, kao kod
numerikog sustava ( u nasem sluaju to je br. 12). U popisu literature se, medutim, slijedi
abecedni redoslijed, a nakon njegova sredivanja vrsi se korekcija i u citiranju na nain da
se na mjesto prvog po redu pojavljivanja odredene reference stavlja redni broj reference iz
abecednog redoslijeda u popisu literature. Nas br. 12, u tom sluaju, u popisu moe doci
na, primjerice, redni br. 4. U tom se sluaju u svim navodima u tekstu, u kojima je redni
br. 12 koristen za oznaku odredene reference, na mjesto broja 12 stavlja broj 4. Dakako, i
u tom sluaju postoji mogucnost navodenja uz citat samo rednog broja reference u popisu
literature - u konkretnom sluaju (4) - ali i navodenja uz redni broj reference broja
stranice (ili stranica) na kojoj se citat pojavljuje - primjerice (4, 143) ili (4;134)
Bez obzira koji se od navedenih sustava koristi, danas je sve vise prijedloga kako
bi se, uz puno prezime -u citiranju, ako se koristi Harvardski sustav, ali i u popisu literature
- trebalo navoditi i puno ime autora. Razlog je u injenici da se s istim prezimenom u
citiranju, ali i referencama, moe pojaviti vise autora, zbog ega koristenje samo prezimena
moe dovesti i do zabune.
Danas je, medutim, sve prisutnije i citiranje izvora s &nterneta. Postoji, dakako,
veci broj posluitelja na Internetu, koji se u popisu literature mogu citirati. Medu njima se
izdvajaju: World Wide Web (WWW) posluitelj, GOPHER posluitelj, FTP (File Transfer
Protocol) adresa, Telnet adresa, Sinkrone komunikacije i drugi. No, najesce se koristi
WWW posluitelj, a na njemu, opet, Linx, Netscape ili neki drugi prebirnik.
Da bi se na tim, ili nekim drugim, prebirnicima moglo citirati, potrebno je
raspolagati slijedecim informacijama koje se na prebirnik unose (Zugaj, 1997., 197):
1. ime autora (ukoliko je poznato),
2. pun naslov dokumenta u navodnicima,
3. naslov kompletnoga rada (ukoliko postoji) u kurzivu,
4. datum publiciranja ili posljednje prepravke,
5. potpun URL (http adresa) unutar kutnih zagrada,
6. nadnevak posjete u zagradama, koji je veoma vaan jer jami da je citirani
dokument u momentu citiranja bio dostupan.
Model: Crouse, Maurice, Citing Elecrtonic Information in History papers. 7.
prosinac 1996. (htt(>N<<<#(eo(le#mem(his#eduN.crousemNelcite4
html)(16. prosinca 1996)
Bilo koji sustav citiranja da se koristi pri citiranju su moguce i izvjesne pogreske.
One su svojstvene posebno mladim autorima. Medu njima je, primjerice, posebno esta
pogreska da se citat najavljuje nekom vrstom parafraziranja, da se nakon citata ponovo
osvrce na njegov sadraj, a moguce je da citat prati i parafrazirajuca priprema i
naknadni komentar u isto vrijeme.
8.2.2. P7.*7C,5 G:>1*7+,0 *,276'*,H
Podnoak (fusnota, podnona napomena, napomena, rubna biljeska itd.) oznaava
biljesku koja se obino stavlja ispod teksta, pri dnu stranice, koja je otisnuta slovima
sitnijima od teksta samog, i kojom se obino objasnjava nesto u vezi s napisanim tekstom,
nesto sto bi u tekstu bilo balast, oteavalo mu itanje i razumijevanje. Radi se, u pravilu, o
objasnjenjima koja su korisna, ali za razumijevanje teksta ne i nuna.
Postoje razliite vrste podnoaka (fusnota, napomena). Svi oni se, dakako, mogu
grupirati prema dva osnovna kriterija - po sadraju i mjestu gdje se nalaze.
266
Prema sadraju moguce je praviti razliku izmedu tri temeljne vrste podnoaka ili
napomena - dokumentarnih (bibliografskih), eksplikativnih i uputnih.
56
Dokumentarnom (izvornom, bibliografskom) napomenom se navode bibliografski
podaci izvora iz kojih su citati, ideje ili injenice uzimani, a cilj joj je, prvo, da prui
odredenu garanciju istinitosti citiranih injenica, sudova i ideja i autorov tekst uini
pouzdanijim, i drugo, da itatelju omoguci da se, ako eli, podrobnije i temeljitije upozna s
citiranim izvorom, da, dakle, dodatno razvije svoje znanje. Ovim napomenama, sukladno
tome, treba u najvecoj mjeri zahvaliti i razlikovanje izmedu strogo znanstvenog i
popularno-znanstvenoga djela.
Eksplikativnom napomenom se, u pravilu, nudi dopunsko objasnjenje odredene
misli ili injenice iz teksta, u njemu iznijetih podataka, informacija, stavova itd.
Na koncu, uputnom napomenom se itatelja upucuje na neki drugi izvor koji tretira
istu ili slinu problematiku ili na druge dijelove istog izvora.
Prema mjestu gdje se nalaze, moguce je praviti razliku izmedu tri vrste
napomena:
a) Napomene koje su sastavni dio teksta. Za njih je, zapravo, i ispravnije koristiti
termin napomene jer su smjestene uz sami tekst na kojeg se odnose.
57
Ako se prakticira
ovu vrstu napomena onda se podaci, koji je ine, stavljaju u zagrade nakon teksta na koji
se ona odnosi. Takve su, u pravilu, dokumentarne napomene, one kojima se navode
bibliografski podaci citiranog izvora, npr. (12., 134).
b) Fusnote (podnone napomene) koje se nalaze ispod teksta, u podtekstu, i na
stranici na koju se odnose. One su, u pravilu, oznaene arapskim brojevima.
c) Fusnote (podnone napomene) iza svakog poglavlja ili na kraju knjige. U tom su
sluaju sve fusnote, koje se u tekstu koriste, navedene na istom mjestu.
Radi li se, pak, o fusnotama kao podnonim napomenama, takoder su moguce
razliite kombinacije. Oznaavaju li se, primjerice, fusnote arapskim brojevima, to je
moguce uiniti takoder na tri naina. Moguce je, prvo, da fusnote na svakoj stranici poinju
rednim brojem 1. Istina je, doduse, da se ovakva mogucnost, zbog nedostataka kojima je
opterecena - male promjene u tekstu mogu dovesti do velikih poremecaja - relativno
rijetko koristi. Ako je, medutim, opredjeljenje na takav nain oznaavanja, umjesto
arapskih brojeva se mogu upotrijebiti i zvjezdice (*), jedna ili vise njih ovisno o tome koliko
fusnota na dotinoj stranici ima. Moguce je, potom, da se fusnote odnose na jedno
poglavlje. U tom sluaju, u svakom novom poglavlju fusnote poinju rednim brojem 1. Na
koncu, moguce je da su fusnote jedinstvene za itavo djelo. U tom sluaju, redni broj 1 koji
stoji uz prvu fusnotu u djelu, a broj X uz posljednju.
U sluaju, potom, da je djelo optereceno fusnotama ispod teksta ponekada se
pribjegava rjesenju da se razdvoje bibliografske i eksplikativne napomene, i to na nain da
se eksplikativne pisu pri dnu stranice, a bibliografske na kraju poglavlja ili knjige. U sluaju
takvog opredjeljenja, medutim, mora se napraviti razlika i u oznaavanju napomena - da
se, primjerice, eksplikativne napomene oznaavaju arapskim, a bibliografske rimskim
brojevima.
Kada su, na koncu, u pitanju svi oblici fusnota, odnosno podnonih napomena, u
vezi s njima je potrebno poznavati i nekoliko pravila njihova koristenja. Medu znaajnije
spadaju, svakako, i slijedeca pravila koristenja podnoaka:
Broj fusnote se obino (osim u izuzetnim sluajevima kada se, kako je i
naznaeno, koriste rimski brojevi ili zvjezdice) oznaava arapskim brojem (1,2,3,), bez
zagrade, pri emu je broj malo izdignut;
56
Ormus i Matijevic za tu vrstu napomena koriste termin komparativne (vidjeti, Ormus i Matijevic,
1979., 180). No, tim se nazivom, po nasem sudu, ne pogada u potpunosti i smisao onoga sto ova
vrsta podnoaka znai. Stoga termin uputne smatramo prihvatljivijim.
57
Za razliku od njih, termin fusnota po svojoj strukturi upucuje da se radi o napomeni koja je ispod
teksta (ili na kraju poglavlja, ili na kraju knjige). Termin fusnota je, naime, njemako-latinska
kovanica (Njem. Fuss = noga, podnoje, lat. nota = znak, zabiljeska) koja se moe prevesti
kao podnona zabiljeska (napomena).
267
Broj fusnote dolazi na kraju citata, a ne odmah nakon navodenja autora u vezi s
kojim je fusnota. Idealno bi, dakako, bilo kada bi s njim zavrsavala reenica. No, to esto
nije sluaj;
Ako na mjestu, koje je predvideno za broj fusnote, postoji i odreden
interpunkcijski znak (zarez, toka itd.), broj fusnote dolazi poslije interpunkcijskoga znaka;
Kod tehnologije pravljenja fusnota, odnosno podnonih napomena, u sluaju da se
radi o dokumentarnim (bibliografskim) fusnotama, takoder se treba pridravati odredenih
pravila. Neka od najvanijih pravila pravljenja fusnota su i prezentirana u nastavku analize.
Kod prvog navodenja bibliografskih podataka iz izvora, u sluaju da na kraju
znanstvenoga rada nema bibliografije, navode se svi bibliografski podaci: Prezime i ime (ili
prvo slovo imena), naslov djela, broj izdanja (ako ih ima vise), ime izdavaa, mjesto
izdanja, godina izdanja, broj stranice (ili stranica). No, i u tom se sluaju mogu primijeniti
dva pristupa.
Primjer br. 1: Kukic, S., Sociologija, teorije drutvene strukture,
Sarajevo Publishing, Sarajevo, 2004., s. 134
Primjer br. 2: Kukic, S., Sociologija, teorije drutvene strukture,
(Sarajevo Publishing, Sarajevo, 2004.), s. 134
Ukoliko, pak, na kraju znanstvenoga rada postoji bibliografija, i kod prvog
navodenja djela je moguce izvrsiti skracivanje - bilo da ostanemo vjerni Harvardskom, bilo
da se opredijelimo za numeriki ili abecedno-numeriki nainu navodenja. U koristenju
Harvardskog naina navodenja prethodni bi primjer mogao izgledati ovako:
Kukic, S., Sociologija, teorije., 2004., s. 134
Ako je u tekstu dano prezime autora djela, ili i prezime i naslov, onda se ti
podaci ne moraju navoditi i u podnosku ili fusnoti.
Primjer 1: u tekstu se nalazi prezime autora
Sociologija, teorije drutvene strukture, Sarajevo Publishing,
Sarajevo, 2004., s. 134
Primjer 2: u tekstu se nalazi i prezime autora i naslov djela
Sarajevo Publishing, Sarajevo, 2004., s. 134
Ako u djelu nije dano ime autora, napomena poinje naslovom djela. U
koristenom primjeru to bi izgledalo ovako:
Sociologija, teorije drutvene strukture, Sarajevo Publishing,
Sarajevo, 2004., s. 134
Ako se u fusnoti (podnonoj napomeni) navodi vise izvora, oni se obino
rastavljaju tokom i zarezom.
Primjer: Kukic, S., Sociologija, teorije drutvene strukture, Sarajevo Publishing,
Sarajevo, 2004., s. 134; Marusic, A., Sociologija, Zagreb, 1965., s. 45.
Ako su djelo napisala dva ili tri autora, navode se imena svih njih, npr.:
Kukic, S. i Demirovic, M., Metodologija znanstvenoistraivakog rada
drutvenih znanosti, Mostar-Bihac, 2003., s. 45.
Ako je djelo plod rada vise autora, u fusnoti se navodi samo prvi od njih, a uz
njega se stavi i dr. ili et al.
Primjer: Buble, M. et al. (ili Buble, M. i dr.), strategijski management,
Ekonomski fakultet, Split, 1997., s. 234.
Prethodni primjer upozorava i na jos jedan detalj koji se javlja u koristenju
fusnota. U pitanju je, naime, koristenje razliitih kratica u fusnotama. U znanstvenim i
strunim djelima se - pri emu se misli na ukupnost teksta u njima - najesce koriste
slijedece kratice:
A(+/)>->1 (skraceno, ,(+.) = lan
"7*:'( (skraceno, ):.) = usporedi
E+ )'+'(, (skraceno, '+).) = i tako dalje
I8/.'6 (skraceno, /8/.. ili /8.) = na istom mjestu (u istom djelu, na istoj strani)
I* :/*' = konano, na kraju (knjige), na svrsetku.
I*:(, (skraceno, /*:.) = ispod, nie (upucuje na ono sto ce doci kasnije)
268
L7)7 )/+,+7 (skraceno -7).)/+. ili -.).) = na navedenom mjestu
O2>1 )/+,+>6 (skraceno 72. )/+ ili samo 7.).) = u navedenom djelu (u djelu
koje je ranije vec bilo spomenuto)
P,9/*, (skraceno, 2,9. ili 2.) = stranica u knjizi
S/*' ,**7 (skraceno, 1.,.) = bez godine izdanja (kod djela koja nemaju godinu
izdanja)
S/*' -7)7 (skraceno, 1.-.) = bez mjesta izdanja (takoder kod znanstvenih djela)
S/) = tako (obiljeava da je tako u originalu, moe biti i udenje)
S>2(, (skraceno, 1>2.) = ispred, prije (upucuje na ranije podatke)
T76>1 (skraceno +.) = svezak
V/)' ;'(1, (skraceno, ;.;.) = obrnuto
Kod fusnota ili podnonih napomena se, medutim, najesce koriste tri od
navedenih kratica - Ibidem (ibid.), Opus citatum (op.cit.) i Loco citato (loc.cit.)
Kratica /8/.. (ibidem) koristi se u sluaju da se isti izvor, isto djelo, citira, ili se na
njega poziva u vise navrata uzastopno. U tom se sluaju glavni podaci o djelu navode samo
kod prvog citiranja. Kod svih ostalih sluajeva, ako se nadovezuju na prvo citiranje bez
prekida, koristi se kratica /8/..
Primjer:
1. Kukic, S., Sociologija, teorije drutvene strukture, Sarajevo Publishing,
Sarajevo, 2004., s. 134
2. Ibid., 65.
3. Ibid., 321.
Ako se, medutim, izmedu citiranog djela pojavilo jedno ili vise drugih djela,
ponovno citiranje toga djela ne podrazumijeva potrebu i ponovnog navodenja njegovih
glavnih podataka. Dovoljno je samo navesti prezime i prvo slovo imena autora i kraticu
72.)/+. ili samo O.). (Opus citatum).
Primjer:
1. Kukic, S., Sociologija, teorije drutvene strukture, Sarajevo Publishing,
Sarajevo, 2004., s. 134
2. Buble, M. et al. (ili Buble, M. i dr.), strategijski management,
Ekonomski fakultet, Split, 1997., s. 234.
3. Kukic, S., op.cit., 326
4. Buble, M. et al., op.cit., 421.
Na koncu, ako se u fusnoti hoce uputiti na isto djelo, isti svezak, istu glavu i istu
stranu, koristi se skracenica -7). )/+. (loco citato = citirano mjesto).
Primjer:
1. Kukic, S., Sociologija, teorije drutvene strukture, Sarajevo Publishing,
Sarajevo, 2004., s. 134
2. Kukic, S., loc. cit.
8.2.3. I->1+(,)/&'
Pod ilustracijama se podrazumijevaju svi prilozi koji su u funkciji reljefnijeg i
zornijeg predoavanja itatelju opsirnih deskripcija i raznih sloenih pojava. U
znanstvenoistraivakom radu koristi se veliki broj razliitih ilustracija. Neke od njih, koje
se esce pojavljuju, u nastavku se teksta i poblie odreduju.
1. Tabela, odnosno sustavni pregled podataka o znaajkama promatrane pojave,
dobivenih grupiranjem pojedinanih podataka koji su prikupljeni i obradeni. U stvarnosti se
pojavljuju tri temeljne vrste tabela:
jednostavne, u kojima se prikazuju podaci jedne pojave prema samo
jednom obiljeju. Sastavljene su od samo dvije kolone - pretkolone u
kojoj je istaknuto obiljeje prema kojem se grupiranje vrsi, te kolone, u
kojoj su brojani podaci za svaku grupu.
269
sloene, nastale spajanjem vise jednostavnih tabela nastalih prema
istom obiljeju, zbog ega im je zajednika i pretkolona, te
kombinirane, u kojima se grupiranje vrsi prema dva obiljeja, pri emu
se jedno od njih stavlja u pretkolonu, a drugo u zaglavlje.
Kod koristenja tabela mora se voditi rauna o tome da svaka tabela ima i neke
svoje sastavne dijelove, slijedece prije svega:
Naslov, i to iznad tabele, jasan i kratak,
Redni broj, koji se, u pravilu, pise ispred naslova, i pomocu kojeg se podaci
iz tabele povezuju s tekstom,
Izvor podataka, koji se navodi ispod tabele,
Zaglavlje, pretkolonu, redove i kolone iji broj moe biti razliit, te
Napomenu, koja se, ako se uopce koristi, pise ispod tabele, a iznad izvora
podataka.
2. Gra'ikon, zahvaljujuci kojem odredeni brojani podaci postaju prijemivijim,
jasnijim, pristupanijim. Grafikon se, naime, esto koristi i za prikazivanje podataka koje
sadri odredena tabela. Pri tome se, dakako, mogu koristiti razliite varijante grafikog
prikazivanja podataka - pomocu razdijeljenih stupaca, dvostruko razdijeljenih stupaca,
linijskoga grafikona, te strukturnih krugova. Svaki grafikon prate najmanje tri vrste
podataka, i to:
Redni broj, koji se navodi ispred naslova,
Naslov, koji se nalazi iznad grafikona, te
Izvor podataka, koji se nalazi ispod grafikona.
3. $rte, koji takoder, nekada manje, a nekada vise, prati znanstvenoistraivaki
rad. Veoma su razliite vrste crtea koji mogu pratiti znanstveno djelo, a mogu se dijeliti
prema razliitim kriterijima - sadraju, namjeni, nainu prikazivanja i tehnici izrade.
4. Slika, koja je znaajan sastavni dio znanstvenoga djela. Medutim, izraz slika se
dosta esto koristi u razliitim znaenjima, esto i dosta upitnima. Neki pod tim pojmom
podrazumijevaju sve ilustracije osim tabela (Silobric, 1983., 65), drugi, opet, pod pojam
slika svode sve moguce ilustracije (Milovanovic, 1979., 57 i 88.), itd. Sve to, dakako, je
upitno. Stoga se, kako ne bi dolazilo do zabune, preporua koristenje adekvatnih naziva za
svaku od pojedinanih ilustracija - grafikon, tabela itd.
5. %otogra'ija, koja se takoder relativno esto koristi u znanstvenim djelima. Pri
tome se dopusta da one budu u crno-bijeloj tehnici ili u boji, ali i u jednom i u drugom
sluaju jasne i s dosta kontrasta. Dakako, i fotografije - svaka od njih ponaosob - moraju
imati svoj redni broj, naslov i izvor.
8.3. KOMPONIRANJE I JEZINODSTILSKA O%RADA R$KOPISA ZNANSTVENOG I
STR$NOG DJELA
8.3.1. K7627*/(,*&' ?*,*1+;'*79 / 1+(>4*79 .&'-,
Komponiranje znanstvenog i strunog djela podrazumijeva sve radnje koje se, na
bilo koji nain, odnose na utvrdivanje sastava toga djela, raspored dijelova koji ga ine, te
nain na koji su oni medusobno povezani. U svim tim radnjama se, dakako, treba
pridravati i odredenih naela. U teoriji se apostrofira posebice njih sest i to:
1. N,4'-7 &'./*1+;, 57627?/)/&' se postie ako se tijekom pisanja, i u istom
radu dakako, ostvari jedinstvo cilja (da autor zna sto konkretnom temom eli postici), misli
(da su za glavnu misao povezane sve pojedinosti i ideje koje proizlaze iz uoenog
problema), i izlaganja (autor se, tako, ne smije upustati u nefunkcionalne digresije).
2. N,4'-7 7.,8/(, podrazumijeva nekoliko detalja. Pisac se, prije svega, mora
sam postaviti u ulogu itatelja i iz njegove pozicije ocijeniti sto ga zanima a sto ne. S druge
strane, on mora birati samo ono sto je za konkretnu temu i njezino razvijanje vano. Ne
smije, na koncu, podleci iskusenju suvisnih digresija, iako to, dakako, ne znai i potrebu
uzdravanja od digresija uopce. Dapae. Funkcionalne digresije su dopustene, pridonose
atmosferi opustanja itatelja, te uspjesnijim i slikovitijim objasnjenjima.
270
3. N,4'-7 A,(67*/&' G15-,.,H, koje podrazumijeva da se nadene i odabrane
pojedinosti, slijedom logikih i prirodnih pravilnosti, rasporeduju prema redu koji je
najprikladniji, da se svrstavaju u manje ili vece skupine (paragrafe ili stavke) i vezuju u
jasnu i skladnu cjelinu.
4. N,4'-7 (,;*76&'(*71+/ /-/ 2(727()/&' znai odredivanje adekvatnog prostora
za svaku misao prema vanosti koju ona ima u cjelini. Da bi to uopce bilo moguce
neophodno je unaprijed izvrsiti plansko razgraniavanje ideja prema razini njihove vanosti
na nain da glavna ideja dobije najvise prostora, da vanije ideje dobiju vise prostora od
onih manje znaajnih, sporednijih itd. Ta vrsta razgraniavanja, planiranja se primjenjuje
na svim razinama kompozicije - na razini rukopisa kao cjeline, ali i na razini njegovih
sastavnih dijelova - sve do paragrafa (stavka) i reenice)
5. N,4'-7 /?(,?/+71+/ je isprepleteno s prethodnim. Uvjet da se ono i ostvari je
isticanje najvanijih misli u prvi plan. Kako to, medutim, postici? Vise je naina moguce.
No, jedan od pouzdanijih je izrazitost, snaga zavrsetaka, dojam zaokruenosti i potpunosti
izlaganja u njima, izbjegavanje opasnosti da se, u tim dijelovima teksta, podlegne
iskusenju da se poine razliite vrste pogresaka - od stereotipija, nedovoljne preciznosti do
naglih zavrsetaka bez adekvatne pripreme i tome slino.
6. N,4'-7 (,?*7;(1*71+/ je vano zbog injenice da se, vodi li se rauna o
njemu, izbjegava sivilo misli i izraza, a samim tim i mogucnost monotonije, da se odrava
visoka razina pozornosti itatelja teksta, da ih se motivira da u itanju istrajavaju i slino.
Dakako, raznovrsnost se moe osigurati na razliite naine - izbjegavanjem fraza,
promjenom stila, upotrebom novih rijei itd.
8.3.2. J'?/5 ?*,*1+;'*79 / 1+(>4*79 .&'-,
Jezik je, generalno govoreci, sredstvo sporazumijevanja medu ljudima, a govor,
opet, forma njegove primjene, ali i forma komunikacije izmedu dviju osoba. Razlike,
dakako, treba praviti izmedu knjievnog i narodnog jezika na kojem se on temelji jer je
ovaj prvi normiran razliitim, gramatikim i stilistikim pravilima. Razlike, potom, treba
praviti i izmedu razliitih formi pojavljivanja jezika - umjetnikog, znanstvenog, tehnikog,
jezika koji se prakticira u razliitim vrstama znanosti, a koji se od ostalih razlikuje po
specifinim pojmovima koje koristi itd.
Jeziku su, potom, svojstvene i odredene *7(6'. U pitanju je, primjerice,
gramatika norma kao jedna od onih koje su za jezik bitne. Njome se propisuje i tumai sve
ono sto je u gramatikom ustrojstvu jezika dopusteno, ali i upozorava na ono sto, zbog
toga jer nije prihvaceno, treba popravljati. Medu jezinim normama je i ona koja se tie
pravopisa, konvencije, dogovora o tome kako ce se sto pisati, kada ce se koristiti veliko, a
kada malo slovo, kada toka, zarez itd. Jedna od normi je i leksika, norma koja ozakonjuje
upotrebu rijei i njihova znaenja, koja pravi razliku izmedu rijei koje se podvode pod
termin istoznanica i onih koje spadaju u red slinoznanica, koja precizira pojam sinonima
i regulira pitanje njihova koristenja i slino. U red relevantnih, potom, se ubraja i izgovorna
norma, ona koja propisuje knjievni izgovor, ponajprije izgovor pojedinanih rijei,
ozakonjuje akcente ili naglaske i slino. Na koncu, zanemariti se ne smije ni norma
stilistika, norma koja polazi od toga da je, sve sto u jeziku postoji, dobro, dakako ako slui
svrsi, ali ne i jednako vrijedno, da je vrjednije ono ime se, i pismom, potvrduje
individualnost od onoga u emu ona nije u prvom planu.
U koristenju jezika se, kada je jezik znanosti po srijedi, dogoditi mogu i razliite
vrste 279('3,5,. Cest je sluaj, primjerice, da se odredene rijei zloupotrebljavaju. Stoga
rijei, koje takvu mogucnost dopustaju, prije svega, one koje upucuju na krajnje relativne
pojmove - kao, primjerice, termini slabo, jako, esto, mnogo, kolosalno i tome
sline - u znanstvenim radovima treba, koliko je moguce vise, izbjegavati.
Izbjegavati je, potom, uputno i upotrebu prvog lica jednine i mnoine jer, ni jedno
ni drugo, nije izraz skromnosti, izaziva osjecah samohvalisanja i znade iritirati itatelje.
Umjesto toga se preporua pisanje u bezlinoj formi, u trecem licu, u konstrukcijama tipa
smatra se, istraivanja pokazuju i slino.
Preveliko znaenje, sukladno tome, ne treba davati ni vlastitim rezultatima
istraivanja. Dapae. I tu treba imati mjeru i izgraden osjecaj za objektivno i realno.
271
Uputno nije ni koritenje potapalica tipa opce je poznato, svatko to zna i tome slinih,
ali ni stranih rijei - osim, dakako, da za odredeni pojam ne postoji i odgovarajuca domaca
rije.
Na koncu, odredena se pravila jezika moraju znati i u pisanju brojeva, kako u
numerikom, tako i u tekstualnom obliku. Jedno od pravila u vezi s tim je da se brojevi do
deset pisu slovima, a svi ostali brojevima. Ako se, pak, u jednoj reenici pojavljuju obje
vrste brojeva, pribjegava se pravilu da ih se sve pise numeriki. Na koncu, brojevima se, i
to u svim pojavnim formama, pisu i brojevi dana, mjeseca i godine.
8.3.3. S+/- ?*,*1+;'*79 / 1+(>4*79 .&'-,
8.3.3.1. P7&,6 1+/-,
Jasno je da znanstveno i struno djelo nije u potpunosti neovisno od stila pisanja.
Dapae. Izgradenost stila pisanja moe bitno utjecati i na prihvatljivost konkretnog djela
kod itateljske publike. Drugim rijeima, znanstveno i struno djelo zahtijevaju i primjeren
stil iznosenja misli - stil koji je jasan, neusiljen, jednostavan, originalan, pun maste,
ivosti, harmonije. Kako, medutim, stil pisanja i definirati? U literaturi je, dakako, moguce
sresti razliite definicije. Ne ulazeci, dakako, u variranje pojedinih od njih, pod stilom se
moe razumjeti izbor izraajnih sredstava u jeziku, i to izbor koji je ukupnost svih izraajnih
sredstava.
Medu stilovima postoje znaajne razlike. Sukladno tome, moguce je praviti razliku
izmedu razliitih stilova pisanja - knjievno-umjetnikog, publicistikog, administrativnog,
znanstveno-popularnog, znanstvenog itd. I, svaki od njih ima posebnosti po kojima se
razlikuje u odnosu na druge. U znanstvenoistraivakom radu se, primjerice, prakticira
znanstveni stil, stil koji istie logika obiljeja onog sto se izlae, intelektualne elemente
jezika, znanstvene izraze. Odlikuje ga, drugim rijeima, inzistiranje na jednostavnosti,
jasnoci, kratkoci i loginosti misli i izlaganja rezultata znanstvenoistraivakog rada, ali i
zanemarivanje intimnosti, individualnosti, osjecajnosti. Za razliku od njega, kod
knjievno4umjetni.kog stila do izraaja dolazi puno vise masta i osjecaji nego razum i
intelekt. Za razliku od znanstvenog, ovaj stil koristi bas sve mogucnosti koje prua
knjievni jezik. Publicisti.ki stil, opet, spaja mnoge elemente novinarskog i znanstvenog.
Odlikuju ga kratkoca, jasnoca, esto i polemika ostrina. Na koncu, svojevrsnom se
mjesavinom moe oznaiti i znanstveno4(o(ularni stil, kombinacijom znanstvenog,
knjievno-umjetnikog i publicistikog u isto vrijeme. Pribjegava mu se obino u
situacijama kada se autor odredenog znanstvenog ili strunog djela ne obraca specijalistima
nego siroj itateljskoj publici i kada se, upravo zbog tipa publike, izlaganje hoce uiniti
ivahnim, kada se strunu terminologiju opisima, knjievnim izrazima i slino.
Izvjesno je, dakako, da se u stvarnosti relativno rijetko, ili nikako, moe govoriti o
istom stilu. U principu se radi o odredenim ukrstanjima razliitih stilova. Dijelovi kojeg od
njih ce biti naglaseniji ovisi, bez dvojbi, o onima kojima je rad upucen. No, bez obzira na to
elementi kojeg od stilova su dominantni, jedno je pravilo, kada je znanstvenoistraivaki
rad u pitanju, opcevaece - dobar je onaj stil koji je jasan, jednostavan, prirodan,
odmjeren, suvisao, ali i raznolik. Autor teksta, naime, nikada ne smije izgubiti iz vida da ne
pise za sebe nego za druge, da to sto pise mora biti pregledno, da izmedu dijelova teksta -
reenica i paragrafa - postoji potrebna logina veza itd.
8.3.3.2. O.-/5' .78(79 ?*,*1+;'*79 1+/-,
Govoreci o pravilima dobrog pisanja, !ilson apostrofira posebice slijedece: 1.
Nikada ne upotrebljavaj veliku rije ako ti je mala dovoljna. 2. Nikad ne upotrebljavaj dvije
rijei ako je jedna dovoljna. 3. Izbjegavaj pasiv kao kugu (npr. pasiv: u odsudnoj utakmici
nasi su pobijedeni. Aktiv: Nasi su izgubili odsudnu utakmicu). 4. Pusti glagole da podnesu
glavni teret (prema, Zugaj, 1997., 188.). U Wilsonovim pravilima se, dakako, moe
prepoznati i detalje dobrog znanstvenog stila. O tim detaljima, medutim, drugi autori
govore i bitno kompleksnije. Po 8ami2u, primjerice, moguce je govoriti o tri odlike dobrog
stila i jezika jednog znanstvenog djela. To su:
272
1. J,1*7@,, odnosno sposobnost jezika da kod itatelja razvija iste misli i
osjecaje kao i kod autora u vrijeme dok je djelo pisao. To je, s druge strane, moguce samo
u sluaju ako je autor, dok djelo pise, svjestan da pise za druge, a ne za sebe, da, prema
tome, misao treba i izlagati na nain da je itatelj, ak i pod pretpostavkom da o predmetu
ne zna gotovo nista, u potpunosti i bez vecih poteskoca razumije.
2. J'.*71+,;*71+0 2(/(7.*71+0 7.6&'('*71+. Ova odlika, zapravo,
podrazumijeva veci broj osobina dobrog znanstvenog stila pisanja. Prema amicu, dobar
znanstveni stil ne smije biti ni pretenciozan, ni patetian (zanesen, strastven), ni emfatian
(napuhan), ni bombastian (kicen), ni panegirian (koji sve hvali), ni dijabolian (koji sve
negira), ni ironian (koji se svemu smije), ni skeptian (koji u sve sumnja), ni polemian
(koji je sklon polemici u vezi sa svim i svaim), ni hiperkritian (koji pretjerano kritizira), ni
familijaran, ni retorski, ni svearski, ni leeran (vidjeti, amic, 1969., 117-118). Dobar je
znanstveni stil, naprotiv, onaj koji je jednostavan, prirodan i odmjeren, a kojem, uz sve to,
ne fali ni topline, ivosti i duha.
3. K7*)/?*71+, koja podrazumijeva racionalnost u izraavanju, te ekonominost i
konciznost izraza koja se moe postici na razliite naine - izbjegavanjem opisnog naina
kazivanja i tautologije, racionalnom upotrebom rijei i gramatikih oblika, postivanjem
generalnog pravila da ono, sto niemu ne slui, zapravo skodi, ali i da je, ono sto nije
dobro, u stvari lose.
S tim u vezi se, dakako, postavlja i jos jedno pitanje. Kako, naime, ove odlike ili
svojstva dobrog stila postici? Tri su bitne pretpostavke tome - izbor rijei, struktura i bitne
osobine reenice, te struktura i osobine paragrafa ili stavaka.
i) I?87( (/&'4/, kao jedna od pretpostavki postizanja dobrog stila, zavisi od vise
detalja - vrste napisa o kojem je rije, vrste itatelja za kojeg se pise (drugaije se pise za
strunjaka, a drugaije za siru i neobrazovaniju publiku) itd. No, nesporno je da uvijek
treba birati rijei kojima se najizrazitije i najefikasnije moe saopciti ono sto se eli. Kada
je, primjerice, znanstveni tekst u pitanju, za svaki pojam treba birati ona jezika odredenja
koja su za njega i najprikladnija, koja najpreciznije izraavaju odredenu misao. Istodobno,
medutim, kod izbora rijei treba voditi rauna i o kriteriju njihove raznolikosti, o tome da se
izbjegne ponavljanje istih rijei, upotrebu kliseja, obrata i fraza kakve su, primjerice, i te
kako, fantastino itd.
j) Jedna od pretpostavki postizanja dobrog stila su, potom, i 1;7&1+;, ('4'*/)'
kao stilske jedinice pomocu koje se saopcava misao. Da bi ona bila u funkciji izgradnje
dobrog stila neophodno je da je krase odredene osobine. Dvije medu njima - koherentnost
i raznolikost
58
- zasluuju posebnu pozornost.
Koherentnost podrazumijeva logian odnos pojedinih dijelova i rijei u reenici, koji
omogucuje da njezin sadraj itatelj shvati brzo i bez vecih napora. Pri tome se, kako bi se
postigla koherentnost reenice, esto mogu napraviti i razliite vrste pogresaka - da
reenica bude dvosmislena, da se nekoj rijei dade pogresno mjesto u reenici (ime se
mijenja i smisao reenice), da se izostave veznici koji utiu na koherentnost itd.
Raznolikost je druga pozitiva osobina koju treba imati jedna reenica. Njome se,
naime, izbjegava monotonija. Kako, medutim, raznolikost i postici? Najjednostavnije
kazano, variranjem reenica na razliite naine - variranjem koje se tie strukture reenica
(da se kombiniraju proste i sloene reenice), njihove duine, reda rijei u njima itd.
k) Jedna od pretpostavki dobrog stila je, na koncu, vezana i za 1+(>5+>(> /
7178/*' 2,(,9(,:, G1+,;5,H, misaone jedinice koja se sastoji od niza medusobno
povezanih reenica na nain da ine siru koherentnu cjelinu, a koja je istovremeno i dio
vece cjeline - pododsjeka, odsjeka, poglavlja itd. Da bi, medutim, jedan paragraf bio
valjan, neophodno je da i on zadovoljava odredene uvjete. Tri medu njima - jedinstvo,
koherentnost i prikladno isticanje - su i najznaajnija. Jedinstvo paragrafa podrazumijeva
da se u itavom paragrafu, od njegova poetka do kraja, razvija ista osnovna misao, da su
sve reenice koje ga ine toj misli ili temi usmjerene. S druge strane, koherentnost
paragrafa podrazumijeva da on ispunjava dva uvjeta - da mu reenice ine vrstu logiku i
organsku cjelinu, te da je to oevidno i za itatelje. Na koncu, jedan od uvjeta valjanosti
paragrafa je i tzv. prikladno isticanje, davanje pojedinim dijelovima jednog paragrafa onog
58
Neki autori, Zugaj, Zelenika i jos neki, ove osobine reenice izdvaja kao dio odlika dobrog
znanstvenog stila.
273
mjesta i prostora koji je neophodan kako bi se osnovna misao paragrafa, sav njezin
sadraj, itatelju i saopcila.
9. LITERAT$RA
1. Anic, V.: Rjenik hrvatskog jezika, Novi Liber, Zagreb, 1991.
2. Baban, Lj., S. Jelinic, M. Lamza-Maronic, K.Ivic: Primjena metodologije znanstvenog
istraivanja, Ekonomski fakultet, Osijek, 1993.
3. Bakovljev, M.: Osnovi metodologije pedagokih istraivanja, prvi dio, Nauna knjiga,
Beograd, 1997.
4. Bazala, V.: Pogled na probleme suvremene znanosti, kolska knjiga, Zagreb, 1986.
5. Brkic, M., Kundaina, M.: Statistika u istraivanju odgoja i obrazovanja, Koled
drustvenih i humanistikih znanosti, Bijakovici-Medugorje, 2003.
6. Cochran, W.G.: Sampling Tachniques, Edt. Wiley, New York, 1997.
7. Collins T.W.: Fokus grupe, Univerzitet u Sarajevu, Sarajevo, 1999.
8. Demirovic, E.: Metode novinarstva, Sarajevo, 2000.
9. Diederichseb, U.:Einfuerungen in das wiessenschaftlichen Denken, Werner-Verlag,
Duesseldorf, 1972.
10. Dubic, S.: Uvodenje u nauni rad, Zavod za izdavanje udbenika, Sarajevo, 1970.
11. Eco, U.: Kako se pie diplomska radnja, Milano, 1977, prijevod s talijanskog
Stipanic, B. i Franulic, M.
12. Enciklopedija Leksikografskog zavoda, sv.1-6, JLZ, Zagreb, MCMLXVI-MCMLXIX.
13. Foreman, E.K., Survey Sampling Principles, Marcel Dekker, 1991.
14. Franjic, Z.: Kako citirati Internet u bibliografiji?, NET, br. 12/1996
15. Gerhards, G.: Seminar-, Diplom- und Doktorarbeit5. Auflage, Verlag Paul Haupt,
Bern, Stuttgart, 1984.
274
16. Gilli, G.A.: Kako se istrauje, Vodi u drustvenim istraivanjima, kolska knjiga,
1974.
17. Good, Carter V., Scates, Douglas E.: Metode istraivanja u pedagogiji, psihologiji i
sociologiji, Otokar Kersovani, Rijeka, 1967.
18. Hrkac, S.: Filozofija odgoja I (Pro manuscripto), Mostar 1999.
19. Ivic, I., M. Milinkovic, R. Rosandic, V. Smiljanic: Razvoj i merenje inteligencije,
Zavod za udbenike i nastavna sredstva, Beograd, 1976.
20. Kedrov, B.M.: Predmet i uzajamna veza prirodnih nauka, Nolit, Beograd, 1969.
21. Kirk, R.E.: Experimental Design: Procedures for the Behavioral Sciences,
Brooks/Cole Publishing Company, Pacific Grove, 1995.
22. Kliemann, H.: Anleitung zum wiessenschaftlichen Arbeiten, Verlag Rambach,
Freiburg, 1973.
23. Kniewald, J., Metodika znanstvenog rada, Multigraf, Zagreb, 1993.
24. Koenig, R.: Handbuch der empirischen Sozialforschung, Stuttgart, 1962.
25. Krippendorf, K.: Content Analysis - An Introduction to Its Methodology, Sage
Publication, Beverly Hills, London, 1981.
26. Kukic, S., Demirovic, M.: Metodologija znanstvenoistraivakog rada, Mostar-Bihac,
2003.
27. Kukic, S., M. Jakic: Logika za gimnaziju, Sarajevo Publishing, Sarajevo, 2004.
28. Kukic, S.: Sociologija, Sarajevo Publishing, 2004.
29. Lukic, R.: Osnovi sociologije, Nauna knjiga, Beograd, 1976.
30. Maslovu A.H.: Motivacija i linost, Nolit, Beograd, 1982.
31. Milardovic, A.: Metodologija politologije, Pan liber, Osijek-Zagreb-Split, 1998.
32. Milic Vojin: Socioloki metod, Nolit, Beograd, 1978.
33. Miller C. Delbert: Handbook of Research Design and Social Measurement, David Mc
Kay Company, New York, 1970.
34. Milovanovic, M.: Pisanje, uredivanje i tampanje, NIRO Tehnika knjiga, Beograd,
1979.
35. Muic, V.: Metodologija pedagokog istraivanja, Svjetlost, Sarajevo, 1982.
36. Ormus, M., M. Matijevic: Intelektualni rad, Metode i tehnike, Radniko sveuiliste
Mosa Pijade, Zagreb, 1979.
37. Peujlic, M., B. Milic.: Metodologija drutvenih nauka, Beograd, 2000.
38. Petrovic, G.: Logika, deseto izdanje, kolska knjiga, Zagreb, 1977.
39. Petz, B.: Osnove statistike metode za nematematiare, V. izdanje, SLAP, 2004.
40. Plevnik, J.: Knjievni odresci s prilogom, SVIJET, 24. listopada 1986., Zagreb
41. Power: Politics and People, The Collected Essays of C.W.Mills, ed by.I.L.Horowitz,
Oxford Univ ersity Press, New York, 1963.
42. Prirunik fraskati, Jugoslavensko udruenje Nauka i drustvo, Beograd, 1976.
43. Rajnberg, S.A.: Metodika i tehnika naunog rda, O metodici i tehnici nauno-
istraivakog i nauno-literarnog rada, Drugo izdanje, Medicinska knjiga, Beograd,
1949.
44. Rueckrim, G., J. Stary, N. Franck: Die Technik wissenschaftlichen Arbeitens,
Ferdinand Schoeningh, Padeborn-Muenchen-Wien-Zuerich, 1997.
45. Salitreic, T., M. Zugaj: Uvod u znanstvenoistraivaki rad, V. izdanje, FOI,
Varadin, 1985.
46. Salitreic, T.: Uvod u znanstveni rad, Ekonomski fakultet Osijek, Osijek, 1974.
47. Silobric, V., Znanstveno djelo, Kako sastaviti i objaviti, JUMENA, Zagreb, 1983.
48. Standop, E.: Die Form der wiessenschaftlichen Arbeih, 10., durchgesehene und
verbesserte Auflage, Quelle&Meyer, Heidelberg, 1984.
49. Stojak, R.: Metoda analize sadraja, Sarajevo, 1990.
50. Supek, R.: Ispitivanje javnog mnijenja, Naprijed, Zagreb, 1961.
51. amic, M., Kako nastaje nauno djelo - uvodenje u metodologiju i tehniku
naunoistraivakog rada, Sarajevo, 1980. godine.
52. amic, M.: Kako nastaje nauno djelo, Sarajevo, 1969.
53. esic, B.: Opta metodologija, peto, popravljeno i dopunjeno izdanje, Nauna
knjiga, Beograd, 1980.
54. esic, B.: Osnovi metodologije drutvenih nauka, Nolit, Beograd, 1974.
275
55. osic, H., Uvod u samostalni struni rad, Visa ekonomska skola , Varadin, 1971.
56. osic, I., V. Serdar: Uvod u statistiku, kolska knjiga, Zagreb, 1995.
57. usnjic, .: Kritika socioloke metode, Gradina, Nis, 1973.
58. Theisen, M.R.: ABC des wissenschaftlichen Arbeitens, Manheim, 1995.
59. Theisen, M.R.: Wissenschaftliches Arbeiten, 10. Auflage, Verlag Franz Vahlen,
Muenchen, 2000.
60. Vujevic, M.: Uvodenje u znanstveni rad u podruju drutvenih znanosti, Informator,
Zagreb, 1990.
61. Weber, M.: Metodologija drutvenih nauka, Globus, Zagreb, 1986.
62. Weizsaecker, C. F.: Jedinstvo prirode, Veselin Maslesa, Sarajevo, 1988.
63. Zajearanovic, G.: Osnovi metodologije nauke, "Nauna knjiga", Beograd, 1977.
64. Zakic, M.: Metodologija naunog rada, Banja Luka, 1983.
65. Zelenika, R.: Metodologija i tehnologija izrade znanstvenog i strunog djela, Rijeka,
1990.,
66. Zvonarevic, M.: Socijalna psihologija, kolska knjiga, Zagreb, 1989.
67. Zugaj, M., Dumiic, K., Dusak, V.: Temelji znanstvenoistraivakog rada, Fakultet
organizacije i informatike, Varadin, 1999.
68. Zugaj, M.: Metodologija znanstvenoistraivakog rada, Fakultet organizacije i
informatike, Varadin, 1997.
69. Zugaj, M.: Osnove znanstvenog i strunog rada, Samobor, 1989.
70. Zuvela, I.: Uvod u ekonomska istraivanja, Ekonomski fakultet Rijeka, 1978.
71. Zuvela, I.: Valorizacija rezultata znanstvenog istraivanja, "Financijska praksa,
Zagreb, 1980, br. 7-8,
10. INDEKS POJMOVA
11. INDEKS IMENA
Ackof
Adorno, T.
Akvinski, Toma
Anic,
Arhimed
Aristotel
Baban, Lj.,
276
Bakalovic H
Bakovljev,
Bazala, V
Becker
Becquerel,
Beitz, Charles R.
Berelson, B.
Bernard,
Boas,
Bogardus,
Boskovic, Ruder
Brkic, M.,
Bruno, Giordano
Buble, M.
Buffa,
Chamson,
Chapin, Stewart
Cheryl, L.,
Cheung, A.,
Chick, V.,
Closets F. de,
Cochran, W.G.
Cohen James,
Collins T.W.:
Comte Auguste
Copernicus Nicolaus
Crouse, Maurice
Curie,
Cajkovski,
da Vinci, Leonardo
Day
Demirovic, E.
Demirovic, M.,
Diederichseb, U.
Dobrov
Dodd, Stewart
Dubic, S.
Dumiic,
Durkheim Emile
Dusak,
Eco, U.
Einstein
Euklid
Foreman, E.K.
Franjic, Z.
Freedman, P.
Gajger,
Galilei, Galileo
Gallup, Georg
Gerhards, G.
Gilli, G. A.
Gilli, G.A.
Gold,
Good, Carter V.,
Gurvitch, Georges
Harrod,
Herbart,
277
Hobbes, Thomas
Hodic, Kadrija
Hrkac, Serafim
Humboldt Wilhelm von
Infeldb,
Ivic, I.,
Ivic, K.
Jelinic, S.
Junker,
Kant, Immanuel
Kedrov, B.M.
Kepler,
Kesic, Tanja
Keynes, J.,
Khaldun, I.,
King, M.L.,
Kirk, R.E.
Kirstein, P..
Kliemann, H.
Kneale, W.
Kniewald, J.
Koenig, R.
Krippendorf, K..
Kukic, S.
Kundaina, M.
Kustic, Z.,
Lamza-Maronic, M.
Lasswell, Harold
Lazarsfeld, P.
Lewin, Kurt
Likert
Lukic, R.
Lundberg,
M. Jakic,
Malinovski
Manheim, Karl
Marusic, A.,
Marx Karl
Maslov, A.H.
Matijevic, M.
Matijevic, Z.
Merton, Robert K.
Michels
Milardovic, A.
Milerlaj, D.
Milic Vojin
Milinkovic, M.
Miller C. Delbert
Mills Wright
Milovanovic, M.
Mojsije,
Muic, Vladimir
Nagel
Newton, Isac
Ormus, M.,
Parsons Talcot
Pavliic,
278
Peujlic, M.,
Petrovic, G.
Petz, B.
Pitagora
Platon,
Plevnik, J.
Protagora,
Rajnberg,
Ritsert, J.
Robbins, S.P
Roentgen,
Rohrschach
Rosandic, R.
Roterdamski, Erazmo
Rueckrim, G., J.
Salitreic, T.
Scates, Douglas E.
Scheler, Max
Serdar, V
Silobric, V.,
Simmel,
Simon Saint
Smiljanic, V.
Smith John,
Sokrat,
Spencer Herbert
Standop, E.
Stary, N. Franck
Stivens
Stojak,
Stone, Eugene F.
Stott, Russell G.
Supek, Rudi
amic, Midhad
esic Bogdan
osic, H.,
osic, I.,
usnjic, .
Tales
Tesla, Nikola
Teak, B.
Theisen, Manuel
Thurston
Vandersmissen,
Vesalius, Andreas
Vujevic, Miroslav
Weber Max
Weizsaecker, C. F.
Wilson,
Zajearanovic, G.
Zakic, M.
Zelenika, Ratko
Zvonarevic, Mladen
Zugaj Miroslav
Zuvela, Ivo
279
280