Professional Documents
Culture Documents
Napredne Statisticke Metode
Napredne Statisticke Metode
Napredne Statisticke Metode
Napredne statističke
metode za analizu podataka
ϕ(x, a0 , . . . , am ).
S = S(a0 , . . . , am ).
ϕ(x) = a0 + a1 x.
3.1. NELINEARNI REGRESIJSKI MODEL 21
pa je
n
k=0 x2k nk=0 f (xk ) − nk=0 xk nk=0 f (xk )xk
a0 = ,
(n + 1) nk=0 x2k − ( nk=0 xk )2
(n + 1) nk=0 xk f (xk ) − nk=0 xk nk=0 f (xk )
a1 = . (3.1)
(n + 1) nk=0 x2k − ( nk=0 xk )2
pa dobijemo sustav
Primjer 3.1. Metodom najmanjih kvadrata odredite polinome prvog i drugog stup-
xk 0 0.4 0.8 1.2 1.6 2.0
nja koji aproksimiraju podatke .
f (xk ) 0.21 1.25 2.31 2.70 2.65 3.20
Rješenje. 1) P1 : ϕ(x) = a0 + a1 x
5
5
5
5
n = 5, xk = 6, x2k = 8.8, xk f (xk ) = 16.228, f (xk ) = 12.32.
k=0 k=0 k=0 k=0
Iz (3.1) imamo
8.8 · 12.32 − 6 · 16.228 6 · 16.228 − 6 · 12.32
a0 = = 0.6576, a1 = = 1.3957,
6 · 8.8 − 36 6 · 8.8 − 36
pa je ϕ(x) = 0.6576 + 1.3957x.
2) P2 : ϕ(x) = a0 + a1 x + a2 x2
Ako u sustav (3.2) stavimo m = 2 i ϕ0 (x) = 1, ϕ1 (x) = x, ϕ2 (x) = x2 imamo
a0 (n + 1) + a1 5k=0 xk + a2 5k=0 x2k = 5
k=0 f (xk )
5 5 2 5 3 5
a0 k=0 xk + a1 k=0 xk + a2 k=0 xk = k=0 f (xk )xk ,
a0 5k=0 x2k + a1 5k=0 x3k + a2 5k=0 x4k = 5k=0 f (xk )x2k
5 3 5 4 5 2
pa iz k=0 xk = 14.4, k=0 xk = 25.0624, k=0 f (xk )xk = 25.1504 imamo
podaci 0, 0.21, 0.4, 1.25, 0.8, 2.31, 1.2, 2.7, 1.6, 2.65, 2, 3.2
0, 0.21, 0.4, 1.25, 0.8, 2.31, 1.2, 2.7, 1.6, 2.65, 2, 3.2
Slika 3.1.
3.1. NELINEARNI REGRESIJSKI MODEL 23
3.0
2.5
2.0
1.5
1.0
0.5
Slika 3.2.
3.0
2.5
2.0
1.5
1.0
Slika 3.3.
24 3. NAPREDNE STATISTIČKE METODE ZA ANALIZU PODATAKA
Fitpodaci, 1, x, x2 , x
2.5
2.0
1.5
1.0
0.5
Slika 3.4.
3.5
3.0
2.5
2.0
1.5
Slika 3.5.
3.1. NELINEARNI REGRESIJSKI MODEL 25
3.0
2.5
2.0
1.5
1.0
0.5
Slika 3.6.
(a) Funkcija
ϕ(x) = a0 ea1 x
linearizira se logaritmiranjem
ψ(x) = ln ϕ(x) = ln a0 + a1 x, yk = ln f (xk ), k = 0, . . . , n,
pa dobivamo linearni problem najmanjih kvadrata
n
n
S̃ = S̃(b0 , b1 ) = (yk − ψ(xk ))2 = (yk − b0 − b1 xk )2 → min,
k=0 k=0
gdje je
b0 = ln a0 , b1 = a1 .
(b) Funkcija
ϕ(x) = a0 xa1
linearizira se logaritmiranjem
ψ(x) = log ϕ(x) = log a0 + a1 log x, yk = log f (xk ), k = 0, . . . , n.
Drugim riječima, dobili smo linearni problem najmanjih kvadrata
n
S̃ = S̃(b0 , b1 ) = (yk − b0 − b1 log xk )2 → min,
k=0
26 3. NAPREDNE STATISTIČKE METODE ZA ANALIZU PODATAKA
gdje je
b0 = log a0 , b1 = a1 .
(c) Funkcija
1
ϕ(x) =
a0 + a1 x
linearizira se na sljedeći način
1 1
ψ(x) = = a0 + a1 x, yk = , k = 0, . . . , n.
ϕ(x) f (xk )
Pripadni linearni problem najmanjih kvadrata je
n
S̃ = S̃(a0 , a1 ) = (yk − a0 − a1 xk )2 → min .
k=0
(d) Funkciju
x
ϕ(x) =
a0 + a1 x
možemo linearizirati na više načina. Prvo možemo staviti
1 1 1
ψ(x) = = a0 + a1 , yk = , k = 0, . . . , n.
ϕ(x) x f (xk )
Pripadni linearni problem najmanjih kvadrata je
n
1
S̃ = S̃(a0 , a1 ) = (yk − a0 − a1 )2 → min .
k=0 xk
Može se koristiti i sljedeći način
x xk
ψ(x) = = a0 + a1 x, yk = , k = 0, . . . , n.
ϕ(x) f (xk )
Pripadni linearni problem najmanjih kvadrata je
n
S̃ = S̃(a0 , a1 ) = (yk − a0 − a1 xk )2 → min .
k=0
(e) Funkcija
1
ϕ(x) =
a0 + a1 e−x
linearizira se stavljanjem
1 1
ψ(x) = = a0 + a1 e−x , yk = , k = 0, . . . , n.
ϕ(x) f (xk )
Pripadni linearni problem najmanjih kvadrata je
n
S̃ = S̃(a0 , a1 ) = (yk − a0 − a1 e−xk )2 → min .
k=0
3.1. NELINEARNI REGRESIJSKI MODEL 27
n
n
n
n
n
SR = (yi − ŷi )2 = yi2 − a0 yi − a1 xi · yi − a2 x2i · yi ,
i=0 i=0 i=0 i=0 i=0
n
n
ST = (yi − ȳ)2 = yi2 − (n + 1)ȳ 2.
i=0 i=0
Vrijedi da je SP +SR = ST, što predstavlja jednadžbu analize varijance i predstavlja
temelj analize reprezentativnosti regresijskog modela.
Standardna greška regresije je apsolutni pokazatelj reprezentativnosti regre-
sijskog modela, a pokazuje prosječni stupanj varijacije stvarnih vrijednosti ovisne
varijable u odnosu na očekivane regresijske vrijednosti:
SR
σ̂ŷ = .
n−1
Ovaj izraz je standardna greška regresije jednostrukog modela. Izražen je u origi-
nalnim jedinicama mjere ovisne varijable y. Stoga je na temelju standardne greške
regresije teško usporedivati reprezentativnost modela s različitim mjernim jedini-
cama.
Taj problem eliminira relativni pokazatelj koeficijent varijacije regresije, koji
predstavlja postotak standardne greške regresije od aritmetičke sredine varijable y:
σ̂ŷ
V̂ŷ = · 100.
ȳ
Najmanja vrijednost koeficijenta varijacije je 0%, a najveća nije definirana. Što
je koeficijent varijacije regresijskog modela bliži nuli, to je model reprezentativniji.
Često se uzima dogovorena granica reprezentativnosti od 10%. Dakle ako je koefi-
cijent varijacije manji od 10% kaže se da je model dobar.
Koeficijent determinacije za model regresijskog polinoma drugog stupnja:
SP
r2 = .
ST
Korigirani koeficijent determinacije:
n
r̄ 2 = 1 − (1 − r 2 ),
n−2
je asimptotski nepristrana ocjena koeficijenta determinacije.
ŷ = ϕ(x) = a0 + a1 x1 + a2 x2 + · · · + ak xk .
∂S ∂S ∂S
= = ··· = = 0.
∂a0 ∂a1 ∂ak
n
(yi − ŷi )2 ⇒ SR = y T y − aT (X T y),
i=0
n
(yi − ȳ)2 ⇒ ST = y T y − (n + 1)ȳ 2.
i=0
ŷ = ϕ(x) = a0 + a1 x1 + a2 x2 ,
30 3. NAPREDNE STATISTIČKE METODE ZA ANALIZU PODATAKA
n
n
n
n
n
SR = (yi − ŷi )2 = yi2 − a0 yi − a1 x1i · yi − a2 x2i · yi ,
i=0 i=0 i=0 i=0 i=0
n
n
ST = (yi − ȳ)2 = yi2 − (n + 1)ȳ 2.
i=0 i=0
Slika 3.9.
Slijedi grafički prikaz, gdje se na x osi nalaze podaci o vremenu inhibicije IT, a na
y-osi vrijednosti izmjerenog sadržaja ukupnih fenola za uzorke vina:
2000
1500
1000
500
IT s
200 400 600 800 1000 1200 1400
Slika 3.10.
Kada se pogledaju podaci na grafu, može se pretpostaviti kako kroz točke možemo
provući pravac ili možda polinom. Ako se radi o pravcu imamo:
3.3. PRIMJENA U STRUCI 35
3000
2500
2000
1500
1000
500
IT s
500 1000 1500 2000
Slika 3.11.
Fitpodaci, 1, x, x2 , x
4000
3000
2000
1000
IT s
500 1000 1500 2000
Slika 3.12.
36 3. NAPREDNE STATISTIČKE METODE ZA ANALIZU PODATAKA
3.0 10146
2.5 10146
2.0 10146
1.5 10146
1.0 10146
5.0 10145
IT s
500 1000 1500 2000
Slika 3.13.
2000
1500
1000
500
IT s
500 1000 1500 2000
Slika 3.14.
2000
1500
1000
500
IT s
200 400 600 800 1000 1200 1400
Slika 3.15.
Pogledajmo drugi primjer koji ima jednu zavisnu, a više nezavisnih varijabli:
za desertno vino Prošek analitičkim metodama su prikupljeni podaci o masenim kon-
centracijama flavonoida, neflavonoida i ukupnih fenola te je Briggs-Rauscherovom
reakcijom praćena antioksidacijska aktivnost. Cilj je bio utvrditi odnos antioksidaci-
jske aktivnosti i koncentracija flavonoida, neflavonoida i ukupnih fenola za desertno
vino Prošek pomoću regresijskih modela parcijalne linearne regresije i viestruke lin-
earne regresije. Utvrdenim odnosom antioksidacijske aktivnosti sa ostalim nave-
denim parametrima omogućilo bi predikciju očekivane antioksidacijske aktivnosti,
ukoliko su poznati podaci o masenim koncentracijama flavonoida, neflavonoida i
ukupnih fenola za desertno vino Prošek. (Gajdoš Kljusurić J., Budić-Leto I., Kur-
tanjek Ž., Lovrić T.(2009) Regresijski modeli predvidanja antioksidacijske aktivnosti
desertnog vina Prošek. XXI. Hrvatski skup kemičara i kemijskih inženjera,. str.
124.)
38 3. NAPREDNE STATISTIČKE METODE ZA ANALIZU PODATAKA
Ukupni fenoli (UF) Flavonoidi (fl) Neflavonoidi (nfl) Vrijeme inhibicije (IT)
GAE mg/L GAE mg/L GAE mg/L s
390 600 790 21.69
414 756 950 235.05
2440 874 1566 861.82
3433 1364 2069 1287.97
3160 1013 2146 1255.92
2914 1272 1642 1033.8
2907 1478 1428 1438.46
3157 1327 1829 692.97
2686 1178 1508 1125.17
2856 1249 1607 978.28
3136 1386 1750 912.64
2185 1156 1600 422.23
2907 1478 1428 2260.75
Slika 3.16.
Slika 3.17.
UF Transposepodaci1
390., 414., 2440., 3433., 3160., 2914.,
2907., 3157., 2686., 2856., 3136., 2185., 2907.
fl Transposepodaci2
600., 756., 874., 1364., 1013., 1272.,
1478., 1327., 1178., 1249., 1386., 1156., 1478.
Slika 3.18.
40 3. NAPREDNE STATISTIČKE METODE ZA ANALIZU PODATAKA
nfl Transposepodaci3
790., 950., 1566., 2069., 2146., 1642.,
1428., 1829., 1508., 1607., 1750., 1600., 1428.
IT Transposepodaci4
21.69, 235.05, 861.82, 1287.97, 1255.92, 1033.8,
1438.46, 692.97, 1125.17, 978.28, 912.64, 422.23, 2260.75
Slika 3.19.
3000
2500
2000
1500
1000
500
IT s
500 1000 1500 2000
model1
ListPlotm1, AxesLabel tablica1, 4, tablica1, 1, PlotStyle Red
Ukupni fenoli GAE mgL
3500
3000
2500
2000
1500
1000
500
Vrijeme inhibicije s
500 1000 1500 2000
Slika 3.20.
3.3. PRIMJENA U STRUCI 41
4000
3500
3000
2500
2000
1500
Vrijeme inhibicije s
500 1000 1500 2000
Showmodel1, g1
Ukupni fenoli GAE mgL
3500
3000
2500
2000
1500
1000
500
Vrijeme inhibicije s
500 1000 1500 2000
Fitm1, 1, x, x2 , x
3000
2500
2000
1500
1000
500
Vrijeme inhibicije s
500 1000 1500 2000
Slika 3.21.
42 3. NAPREDNE STATISTIČKE METODE ZA ANALIZU PODATAKA
3000
2500
2000
1500
1000
3000
2500
2000
1500
1000
500
Slika 3.22.
Slika 3.23.
3.3. PRIMJENA U STRUCI 43
ListPlotm2,
AxesLabel "IT
s", "flavonoidi
GAE mgL", PlotStyle Green
flavonoidi GAE mgL
1400
1200
1000
800
IT s
500 1000 1500 2000
model2
ListPlotm2, AxesLabel tablica1, 4, tablica1, 2, PlotStyle Green
Flavonoidi GAE mgL
1400
1200
1000
800
1600
1400
1200
1000
Vrijeme inhibicije s
500 1000 1500 2000
Showmodel2, g4
Flavonoidi GAE mgL
1400
1200
1000
800
Slika 3.24.
44 3. NAPREDNE STATISTIČKE METODE ZA ANALIZU PODATAKA
ListPlotm3,
AxesLabel "IT
s", "Neflavonoidi
GAE mgL", PlotStyle Blue
Neflavonoidi GAE mgL
2000
1800
1600
1400
1200
1000
IT s
500 1000 1500 2000
model3
ListPlotm2, AxesLabel tablica1, 4, tablica1, 3, PlotStyle Blue
Neflavonoidi GAE mgL
1400
1200
1000
800
Slika 3.25.
3.3. PRIMJENA U STRUCI 45
1900
1800
1700
1600
1500
1400
Vrijeme inhibicije s
500 1000 1500 2000
Showmodel3, g5
Neflavonoidi GAE mgL
1400
1200
1000
800
Slika 3.26.
Slika 3.27.
46 3. NAPREDNE STATISTIČKE METODE ZA ANALIZU PODATAKA
390, 600, 756, 21.6938, 414, 790, 950, 235.05, 2440, 874, 1566, 861.825,
3433, 1364, 2069, 1287.98, 3160, 1013, 2146, 1255.92, 2914, 1272, 1642, 1033.8,
2907, 1478, 1428, 1438.46, 3157, 1327, 1829, 692.975, 2686, 1178, 1508, 1125.18,
2856, 1249, 1607, 978.28, 3136, 1386, 1750, 912.64, 2185, 1156, 1600, 422.233
Slika 3.28.
Slika 3.29.
3.3. PRIMJENA U STRUCI 47
UF Transposepodaci1
390., 414., 2440., 3433., 3160., 2914.,
2907., 3157., 2686., 2856., 3136., 2185., 2907.
fl Transposepodaci2
600., 756., 874., 1364., 1013., 1272.,
1478., 1327., 1178., 1249., 1386., 1156., 1478.
nfl Transposepodaci3
790., 950., 1566., 2069., 2146., 1642.,
1428., 1829., 1508., 1607., 1750., 1600., 1428.
IT Transposepodaci4
21.69, 235.05, 861.82, 1287.97, 1255.92, 1033.8,
1438.46, 692.97, 1125.17, 978.28, 912.64, 422.23, 2260.75
model LinearModelFitm1, x, x
model"ParameterTable"
EstimateStandard
Errort-Statistic
P-Value
1 1339.92 411.887 3.25311 0.00769258
x 1.2107 0.371294 3.26076 0.0075888
Slika 3.30.
48 3. NAPREDNE STATISTIČKE METODE ZA ANALIZU PODATAKA
model"ParameterTable"
Estimate Standard
Errort-Statistic
P-Value
1 639.498 1142.09 0.559934 0.589187
x1 0.74403 0.498839 1.49152 0.170018
x2 0.162436 1.00015 0.162412 0.874569
x3 1.10711 0.877375 1.26185 0.238724
Slika 3.31.
exp
1400
1200
1000
800
600
400
200
model
200 400 600 800 1000
Slika 3.32.
Iz navedenog se vidi kako model čije su ulazne veličine sve promatrane masene
koncentracije (ukupnih fenola, flavonoida i neflavonoida) nije baš primjeren za predik-
ciju očekivane antioksidacijske aktivnosti pomoću vremena inhibicije. Navode potvrduje i
višekriterijski model sa svojim članovima uz nezavisne varijable, koji su negativni za kon-
centracije flavonoida i neflavonoida, a pozitivan je jedino za ukupne fenole. Takav rezultat
ukazuje da bi parcijalna linearna regresija bila prihvatljivija metoda.
3.4. FAKTORSKA ANALIZA 49
• U kontroli kvalitete - medpovezivanje većeg broja analiza (npr. senzorike i analitike istog
uzorka)
proizlazi primjena faktorske analize koja omogućuje da se taj velik broj karakteristika
nekog proizvoda reducira na manji broj osnovnih karakteristika koje će ga opisati, odnosno
da se veći broj izvornih varijabli reducira na manji broj faktora.
Jedna je od osnovnih pretpostavki za primjenu faktorske analize ta da su podaci
mjereni na intervalnoj skali. No u empirijskim se istraživanjima često javlja problem
mjerenja varijabli, na primjer različite izjave ispitanika, njihova mišljenja, stavovi i slično.
U tim se slučajvima od ispitanika traži da na skali od recimo 1 do 7 procjene svaku
navedenu izjavu, pri čemu bi 1 označivalo ”uopće se ne slažem s navedenom izjavom”,
a 7 ”izrazito se slažem s navedenom izjavom”. Iako je ta skala ordinalna, ona se može
smatrati i intervalnom ako se polazi od pretpostavke da su intervali na skali jednaki. U
empirijskim istraživanjima često se primjenjuju ordinalne skale, ali je uobičajeno da se
prikupljeni podaci analiziraju kao da su prikupljeni na intervalnoj skali.
Faktorska analiza provodi se u više koraka:
d) provodenje rotacije faktora ako inicijalna matrica faktorske strukture nije inter-
pretabilna, ili ako ne udovoljava postavljenom kriteriju jednostavne strukture,
2 , (i
= k) kvadrat izvandijagonalnog elementa korelacijske matrice (kvadrat
pri čemu je rik
koeficijenta korelacije izmedu i-te i k-te varijable), a qik2 , (i
= k) kvadrat izvandijagonalnog
Na taj se način može ispitati prikladnost svake pojedine varijable u analizi i mogu se
isključiti varijable koje nemaju dovoljno veliku vrijednost. Time se povećava vrijednost
Kaiser-Meyer-Olkinove mjere cijele matrice.
Pri izlučivanju faktora promatraju se njihove svojstvene vrijednosti. U faktorskoj
analizi svojstvena vrijednost odredenog faktora jednaka je zbroju kvadrata faktorskih
opterećenja po svim varijablama za taj faktor. Za faktorsku analizu glavnih komponenti
karakteristično je da se izlučuju faktori kojih su svojstvene vrijednosti veće od jedan.
U primjeni faktorske analize postotak varijance svakog pojedinoga faktora izračunava
se na osnovi svojstvene vrijednosti toga faktora, odnosno kao omjer svojstvene vrijednosti
i zbroja svojstvenih vrijednosti pomnožen sa sto:
λj
pj = λ · 100, j = 1, 2, . . . , m.
p
Nakon što je utvrden broj faktora, potrebno je odrediti matricu faktorske strukture
izlučenih faktora. Matrica faktorske strukture sadrži faktorska opterećenja koja predočuju
koeficijente korelacije izmedu izlučenih faktora i varijabli. Faktorska opterećenja ukazuju
na važnost svake varijable za pojedini faktor.
Budući da inicijalna matrica nema obilježja jednostavne strukture, provodi se
rotacija faktora kojom se mijenja odnos izmedu varijabli i faktora. Rotaciju faktora
moguće je provesti uz pomoć jedne od metoda ortogonalne rotacije (gdje su faktorske osi
zadržane pod pravim kutom) ili jedne od metoda kosokutne rotacije (gdje kutovi medu
osima mogu biti različiti od 90 stupnjeva.
Matrica faktorske strukture i matrica faktorskog sklopa nakon provedene rotacije os-
novica su za interpretaciju faktora. Matrica faktorske strukture i matrica faktorskog sklopa
jednake su ako su faktori ortogonalni. Te su matrice različite ako su faktori u medusobnoj
korelaciji, odnosno nakon provedene kosokutne rotacije. Kod kosokutne rotacije se još,
pored navedenih matrica, javlja i matrica korelacija medu faktorima.
Struktura faktorskih opterećenja nakon provedene rotacije omogućuje bolju inter-
pretaciju faktora u odnosu na inicijalnu faktorsku matricu.
su davali odgovore, pri čemu je jedan označavalo ”uopće se ne slažem s navedenom iz-
javom”, a 7 ”izrazito se slažem s navedenom izjavom”). Za prikaz metodologije korišteno
je 10 rezultata ankete.
Popis i pojašnjenje promatranih 15 varijabli:
OPUST − kava je dobra za opuštanje,
UKUS − važno je da kava ima dobar ukus,
NESPA − kada popijem kavu, ne spava mi se,
DOBOS − dobro se osjećam dok pijem kavu,
NEZIV − ne mogu živjeti bez kave,
MIRIS − važno je da kava ima dobar miris,
ODMOR − kava je važna za odmor,
KONCEN − kavu pijem kad želim biti koncentriran/a na učenje,
BUDJEN − kava je važna za razbudivanje,
PAUZA − kava znači pauzu,
UZITAK − kava mi pruža užitak,
POCDAN − kava je važna za početak dana,
MIRPRIM − miris kave je primamljiv,
OSVEZ − kava je osvježenje,
BITELT − kava mi je bitan element u životu.
Rezultati ankete u tablici programa Statistica v.7.1.:
Slika 3.35.
Slika 3.36.
Kao što je pojašnjeno u teorijskom dijelu, prvi korak je izračun korelacija, te dobivamo
matricu faktorske strukture:
Slika 3.37.
3.4. FAKTORSKA ANALIZA 55
Slika 3.38.
Slijedi pregled uz pomoć Cattellijevog dijagrama (scree plot) koji potvrduje kako je broj
faktora koji nakon rotacije opisuju varijable jednak 3 (sve točke na grafu čija y vrijednost
je veća od 1)
Slika 3.39.
Slika 3.40.
Slika 3.41.
3.4. FAKTORSKA ANALIZA 57
Slika 3.42.
3. Postoji li statistički značajna interakcija izmedu promatrana dva faktora, tj. utječu
li ”istovremene” promjene u oba faktora statistički značajno na promjene zavisne
varijable?
Promatra se utjecaj dvaju faktora, pri čemu prvi faktor ima m1 , a drugi faktor m2
razina. Dakle, promatramo m1 · m2 populacija. Pretpostavimo da iz svake populacije
uzimamo nezavisne slučajne uzorke jednake duljine l , svaki za obilježje X reprezentirano
sa Xij ∼ N (μij , σ 2 ) u populaciji ij , za i = 1, . . . m1 , j = 1, . . . m2 .
1 m1 m2
Stavimo: μ = m1 m2 i=1 j=1 μij ,
m2 m1
1 1
μi =
μij , δi = μi − μ, i = 1, . . . m1 , μj = μij , δj = μj − μ, j = 1, . . . m2 ,
m2 j=1 m1 i=1
m2 l m2
1 1
x̄i = xijk = x̄ij , i = 1, . . . m1 ,
m2 l j=1 k=1 m2 j=1
m1 l m1
1 1
x̄j = xijk = x̄ij , j = 1, . . . m2 ,
m1 l i=1 k=1 m1 j=1
m1 m2 l m1 m2 m1 m2
1 1 1 1
x̄ = xijk = x̄ij = x̄i = x̄ ,
m1 m2 l i=1 j=1 k=1 m1 m2 i=1 j=1 m1 i=1 m2 j=1 j
m1
m2
m1
m2
SST1 = m2 l (x̄i − x̄)2 , SST2 = m1 l (x̄j − x̄)2 , SST12 = l (x̄ij − x̄i − x̄j + x̄)2 ,
i=1 j=1 i=1 j=1
m2
m1 l m1
m2
SSE = (xijk − x̄ij )2 = (l − 1) 2
Sij ,
i=1 j=1 k=1 i=1 j=1
H0,1 : δi = 0, ∀i
H1,1 : ∃i td. δi
= 0
M ST1 H0,1
F1 = ∼ F (df1 , df2 ), df1 = m1 − 1, df2 = m1 m2 (l − 1),
M SE
H0,2 : δj = 0, ∀j
H1,2 : ∃j td. δj
= 0
M ST2 H0,2
F2 = ∼ F (df1 , df2 ), df1 = m2 − 1, df2 = m1 m2 (l − 1),
M SE
M ST12 H0,12
F12 = ∼ F (df1 , df2 ), df1 = (m1 − 1)(m2 − 1), df2 = m1 m2 (l − 1).
M SE
60 3. NAPREDNE STATISTIČKE METODE ZA ANALIZU PODATAKA
ANOVA tablica:
izvor stupnjevi suma srednjekvadratno vrijednost
rasipanja slobode kvadrata odstupanje test-statistike
prvi faktor m1 − 1 SST1 M ST1 F1
drugi faktor m2 − 1 SST2 M ST2 F2
interakcija (m1 − 1)(m2 − 1) SST12 M ST12 F12
zbog greške m1 m2 (l − 1) SSE M SE
m1 m2 l − 1 SS
m1 m2 l
gdje je SS = i=1 j=1 k=1 (xijk − x̄)2 .
Primjer 3.5. U tablici su zadani podaci o utjecaju konzumiranja čokolade na broj bodova
na testu iz matematike 16 ispitanika. Ispitanici su na temelju dviju dimenzija (spol: muški
i ženski; količina konzumirane čokolade sat vremena prije pisanja testa) podijeljeni u 4
jednakobrojne grupe. Odgovorite na pitanja:
c) Postoji li statistički značajna interakcija izmedu spola i količine konzumirane čokolade pri
utjecaju na sposobnost rješavanja matematičkih zadataka? Obrazložite odgovor.
M Ž
40 45
100g čokolade 38 42
35 47
42 41
39 30
0g čokolade 40 25
38 24
45 20
Kako je F1 > f0.05 (1, 12), F2 > f0.05 (1, 12) i F12 > f0.05 (1, 12) vidimo da su vrijednosti sve
tri test-statistike upale u kritično područje što znači da hipoteze H0,1 , H0,2 , H0,12 moramo
odbaciti.
Primjer ćemo rješiti i uz pomoć MS Excel-a: Unosimo podatke iz tablice:
Slika 3.43.
Slika 3.44.
3.5. SLOŽENA (DVOFAKTORSKA) ANALIZA VARIJANCE 63
Slika 3.45.