Professional Documents
Culture Documents
6 Sruxaxru
6 Sruxaxru
Deskriptivna univarijatna analiza jest ispitivanje distribucije slučajeva na samo jednoj varijabli.
Primjerice, kada bi se mjerio "spol", gledalo bi se koliko je muškaraca, a koliko žena. To je
osnovni oblik univarijatne analize- frekvencija distribucije. Nezgrapno bi bilo predstaviti
univarijantne podatake navođenjem svih atributa za svaku varijablu, poput dobi. Uz određeni
gubitak detalja podatke je moguće grupirati te tablično prikazati u ovom slučaju frekvenciju
distribucije jedinica uzorka prema dobnim kategorijama u apsolutnim brojkama ili postocima.
Također podatke je moguće prikazati i mjerama centralne tendencije: mod (najčešća vrijednost,
bilo grupiran ili negrupiran), aritmetička sredina (osjetljiva na ekstreme) i medijan (centralna
vrijednost u rangiranoj distribuciji promatranih atributa). Medijan predstavlja “srednju”
vrijednost: polovina podataka je iznad njega, polovina ispod. Još je jedan osnovni statistički
koncept, koncept disperzije. Prosječne vrijednosti kondenziraju neobrađene podatke na jedan
broj (ili atribut) koji predstavlja sve podatke prikupljene za tu varijablu, ali iz nje se ne može
rekonstruirati izvorne podatke. Najjednostavnija mjera disperzije je raspon: razlika najviše i
najniže vrijednosti. Najčešća mjera disperizije je standardna devijacija koja odražava disperziju
distribucije označavajući koliko su pojedinačni rezultati prosječno udaljeni od aritmetičke
sredine. Distribucije sa različitim stupnjevima disperzije mogu imati iste mjere centralne
tendencije. Oslanjanje isključivo na mjere centralne tendencije može dati nepotpunu i
obmanjujuću sliku stoga je važno u obzir uzeti i disperziju podataka.
Vrsta izračuna koja se može izvesti na varijabli ovisi o njezinoj ljestvici mjerenja. Varijable na
nominalnoj ljestvici imaju kvalitativne atribute koji su samo kategorički. Primjeri nominalnih
varijabli su spol, etnička pripadnost i mjesto rođenja. Nominalne se varijable može mjeriti samo
kao frekvencije, na primjer, koliki postotak klijenata čine žene. Varijable na ordinalnoj ljestvici
mogu biti rangirane tako da različiti atributi predstavljaju relativno više ili manje varijable. Ali
razlike između atributa nisu precizne. Na ordinalnoj je ljestvici poznato ima li nečega više ili
manje nego u drugom slučaju, ali ne i koliko više. U slučaju varijabli na intervalnoj ljestvici,
razlike između različitih razina svojstva su jednake. Dakle, razlika između IQ rezultata od 95 do
100 smatra se istom kao i razlika između 100 i 105. Sumarni rezultati na Likertovoj ljestvici
često se tretiraju kao intervalne varijable iako su formalno govoreći na ordinalnoj ljestvici. Uzme
li se anketa od 10 pitanja koja na Likertovoj ljestvici mjeri nečiji stupanj slaganja ili neslaganja,
ukupni rezultati mogu se kretati od 10 do 50. Ne može se sa sigurnošću reći da razlika između
rezultata 40 i 45 predstavljaju isti stupanj razlike u stavu kao i razlika između rezultata 20 i 25.
Omjerne varijable imaju isti atribut kao intervalne, ali dodatno imaju pravu nultu točku,
apsolutnu nulu koja predstavlja potpuno odsustvo svojstva. Strogo govoreći, medijan,
aritmetičku sredinu i standardnu devijaciju treba računati samo za podatke na intervalnoj i
omjernoj ljestvici. Postoje, međutim, brojne "sive zone" u izračunu prosjeka. Ako se neki
statistički izračuni pokažu korisnima u prakse, istraživači bi trebali biti donekle fleksibilni u
primjeni statističkih izračuna na podatke na kojima se oni formalno ne bi smjeli izvoditi.
Međutim, nedopušteno je razmišljanje da takvi rezultati predstavljaju nešto uistinu precizno.
Ponekad je moguće promatrati više od jedne varijable, ali ne gledajući njihov odnos. To bi i dalje
bila univarijatna analiza. Na primjer, moguće je kvantificirati dvije varijable koje mogu, ali i ne
moraju biti povezani. Kada se promatra odnos dviju varijabli, provodi se bivarijatna analiza.
Dok su univarijatne analize varijabli prvenstveno deskriptivne, cilj bivarijatne analize je
objašnjenja odnosa. Multivarijatne tablice konstruiraju se od nekoliko varijabli. Umjesto jedne
nezavisne varijable i jedne zavisne, ovdje postoji više od jedne nezavisne varijabla. Umjesto
objašnjavanja zavisne varijable na temelju jedne nezavisne, objašnjenje se nalazi u uporabi više
od jedne nezavisne varijable. Multivarijatna tablica nije ništa više od dvije bivarijatne tablice
jedna pored druge. Tumačenje multivarijatne tablice svodi se na dva koraka- interpretiranje dvije
bivarijatne tablice.
Analiza podataka u svrhu istraživanja često nastoji koristiti informacije dobivene od uzorka
ispitanika kako bi se izvukli zaključci o populaciji od interesa. Ispitivanje statističkih hipoteza je
široko korištena metoda statističkog zaključivanja. Računala i specijalizirani statistički postupci ,
te njihov opsežan opis i tumačenje, olakšavaju izvođenje statističkih testova. Statistički programi
izračunavaju točnu p-vrijednost, a urednici časopisa danas zahtijevaju od autora da navedu tu
vrijednost, dopuštajući čitateljima da je sami interpretiraju. S druge strane, kada je p-vrijednost
manja od 0,05 ili bilo koje druge proizvoljne granice, interpretacija rezultata testa nije samo
izjava "statističke važnosti". Stoga je podjednako važno da istraživači i čitatelji znanstvenih i
stručnih časopisa razumiju proces provjere statističkih hipoteza i kako ga koristiti kada želimo
prezentirati ili vrednovati rezultate istraživanja u objavljenim člancima. Postoji donekle
zanemaren problem u vezi sa statističkim testovima. Mnogi objavljeni radovi navode znatan broj
p-vrijednosti, što može otežati interpretaciju.
U testiranju statističkih hipoteza koriste se testovi koji su specifično odabrani ili definirani na
način da unutar promatranih podataka kvantificiraju ponašanja koja razlikuju nultu od
alternativne hipoteze ili bi karakterizirala nultu hipotezu ako nema eksplicitno navedene
alternativne hipoteze. Važno svojstvo statističkog testa jest da se distribucija uzorka mora moći
izračunati ili aproksimirati, što omogućuje izračunavanje p-vrijednosti, a mogu se klasificirati su
kao parametrijski i neparametrijski. Većina testova zahtijeva normalnu distribuciju u populaciji,
iako je u praksi distribucija populacije često nepoznata ili sama populacija nije normalna. Za
odabir statističkog testa potrebno je,dakle, između ostalog, znati tip varijabli (nominalne,
ordinalne, intervalne,omjerne), kako su podaci organizirani, koliko je uzoraka, veličinu uzorka i
jesu li zavisni ili nezavisni, te konačno, slijede li normalnu (Gaussovu) distribuciju.
Statistički test koji uključuje stvaranje određenih pretpostavki o parametru populacije naziva se
parametarski test. Statistički test koji se koristi na neovisnim varijablama bez skale naziva se
neparametarski test. U parametrijskom testu, testna statistika temelji se na distribuciji. S druge
strane, u slučaju neparametarskog testa, statistika testa je proizvoljna. U parametarskom
testiranju pretpostavlja se da je mjerenje varijable od interesa na intervalnoj ili omjernoj ljestvici
za razliku od neparametrijskog testa koji barata nominalnim I ordinalnim varijablama. Općenito,
mjera središnje tendencije u parametarskom testu je srednja vrijednost, dok je u slučaju
neparametarskog testa medijan. U parametarskom testu postoje potpune informacije o populaciji.
Suprotno tome, u neparametrijskom testu nema informacija o populaciji. Primjenjivost
parametarskog testa odnosi se samo na varijable, dok se neparametarski test primjenjuje i na
varijable i na atribute. Za mjerenje stupnja povezanosti između dviju kvantitativnih varijabli,
parametarski test koristi Pearsonov koeficijent korelacije, dok neparametarski test koristi
Spearmanovu rang korelaciju.
Korelacija i regresija odnose se na odnos između dviju intervalnih ili omjernih varijabli koje se
mogu prikazati ravnom linijom (linija najboljeg pristajanja ili linija trenda) na dijagramu
raspršenja. Broj koji se naziva 'koeficijent korelacije' (ponekad se naziva i 'r') pokazuje koliko su
usko povezane dvije varijable (u smislu linije najboljeg uklapanja) i ima vrijednosti od +1 do -1.
Ako je koeficijent korelacije +1, to znači da kako se vrijednost nezavisne varijable povećava,
zavisna varijabla raste proporcionalno, točno slijedeći liniju najboljeg uklapanja. Ali ako je
koeficijent korelacije -1, tada kako se vrijednost nezavisne varijable povećava, zavisna varijabla
se smanjuje (tako da linija najboljeg uklapanja ide prema dolje, a ne prema gore). Regresijska
analiza daje dodatne informacije o liniji najboljeg pristajanja, a također p-vrijednost pokazuje je
li odnos između varijabli značajan. Nikad nije dobro koristiti korelaciju za zaključak o 'uzroku i
posljedici'.
Z-test prikladan je za usporedbu srednjih vrijednosti pod strogim uvjetima normalnosti i poznate
standardne devijacije. Njime se provjerava postojanje statitistički značajne razlike aritmetičke
sredine uzorka i prethodno utvrđene aritmetičke sredine populacije. Ako je potrebno utvrditi
samo značajnost razlike, ali ne i smjer razlike (veći ili manji), koristi se dvostruki z-test. U
suprotnom, koristi se jednostruki. U praksi se češće koristi dvosmjerni test koji, uostalom, ima
veću “snagu testa”. Z-test zahtijeva normalnu distribuciju i uzorak veći od N=60 (ili 50).
Promatra li se značajnost razlike između aritmetičkih sredina dvaju uzoraka, pri čemu nije nužno
da oba uzorka imaju jednak broj podataka, koristi se t-test koji je vezan uz Studentovu t-
distribuciju. Postoje tri tipa t-testa ovisno o vrsti u uzoraka. Tip 1 koristi se na zavisnim uzorcima
za parove rezultata prije i poslije uvođenja neke nezavisne varijable. Razlika tipa 2 i tipa 3 t-testa
počiva na (približnoj) jednakosti odnosno različitosti varijance koja se, pak, utvrđuje F-testom.
F-testovi (analiza varijance, ANOVA) obično se koriste kada se odlučuje jesu li grupiranje
podataka po kategorijama smisleno.
Analiza varijance (ANOVA) utvrđuje je li varijabilnost između uzoraka statistički značajno veća
od varijabilnosti unutar uzorka. Pokaže li se da jest, zaključuje se da ta dva uzorka ne pripadaju
istoj populaciji. Prema broju promatranih nezavisnih varijabli razlikuju se jednofaktorska i
dvofaktorska analiza varijance. Jednofaktorska analiza varijance nije ništa drugo doli t-test na
više od dva uzorka. Dvofaktorska anliza varijance uzima u obzir statističku značajnost utjecaja
svake nezavisne varijable (faktora) posebno (pritom zanemarujući ovu drugu) i njihove
interakcije, tj. utječu li promjene oba faktora statistički značajno na zavisnu varijablu.
Hi-kvadrat test je najprimjenjivanija neparametrijska medoda analize kvantitativnih podataka.
Vrlo je koristan jer se može koristiti za kategoričke (nominalne) varijable,dihotomne varijable,
relativno male uzorke i podatke koji nisu normalno distribuirani. Ovaj test u osnovi traži veze i
razlike između promatranih i očekivanih vrijednosti. Sam hi-kvadrat test može poslužiti za
provjeru normalnosti distribucije.
Tablica kontingencije služi za prikaz frekvencije podataka raspoređenih prema dva kriterija od
kojih svaki može imati dvije ili više kategorija. Formiranjem tablice opaženih i tablice
očekivanih rezultata te provođenjem hi-kvadrat testa utvrđuje se postojanje statistički značajne
razlike frekvencija među uzorcima, odnosno, povezanost klasifikacijskih kriterija.
Popis literature:
Arnold, S., Ord, K., Stuart, A. (1999). Kendall’s Advanced Theory of Statistics, Volume 2 A:
Classical Inference & the Linear Model. London: Hodder Arnold.
Babbie E., Rubin, A. (2008). Essential Research Methods for Social Work, Belmont: Cengage
Learning.
Davies, C. (2020). A Quick Guide to Quantitative Research in the Social Sciences. University of
Wales Trinity Saint David.
Ilakovac, V. (2009). Testiranje statističkih hipoteza i neke zamke. Biochemia Medica, XIX (1),
10–16.
Marusteri, M. (2010). Kako odabrati pravi test za procjenu statističke značajnosti razlike između
skupina? Biochemia Medica, XX (1), 15-32.
Pološki Vokić, N., Sinčić Ćorić, D., Tkalac Verčič, A. (2010). Priručnik za metodologiju
istraživačkog rada - Kako osmisliti, provesti i opisati znanstveno i stručno istraživanje. Zagreb:
M.E.P. d.o.o.
Rice, J.A. (2007). Mathematical Statistics and Data Analysis, Boston: Cengage Learning.
Sorić, B. (1987). Koliki postotak znanstvenih otkrića nisu otkrića? Arhiv za higijenu rada i
toksikologiju, XXXVIII (3), 251-260.