Download as pdf or txt
Download as pdf or txt
You are on page 1of 86

STATISTIKA U

DRUTVENIM NAUKAMA
Nije dosadno, nije strano. Moe
biti korisno

SVRHA STATISTIKE
Statistika u drutvenim naukama se koristi u kvantitativnim
istraivanjima.
Kvantitativna istraivanja spadaju u onaj tip istraivanja koja su
pozitivistikog tipa i koji se drutvenim i politikim fenomenima bave
na nain da kvantitativno (brojano) operacionalizuju indikatore.
Osnovni zadatak statistike u drutvenim naukama jeste da meri
drutvene fenomene, i sa ovog stanovita pozitivizam kao
paradigma kojom je kvantitativan pristup inspirisan poiva na
pretpostavci da drutveni fenomeni jesu merljivi.
Da bi se obezbedila merljivost drutvenih fenomena, vano je nai
njihove kvantitativne dimenzije.
Na taj nain kvantitativni pristup u procesu operacionalizacije svaki
fenomen vidi posredstvom veeg ili manjeg broja varijabli koje
predstavljaju kvantitativne aspekte ispitivanog fenomena.
Svaki od ovih aspekata jeste u osnovi jedna od kvantitativniih
dimenzija fenomena o kome je re.

Univarijantna statistika
Pod univaraijantnom statistikom se podrazumeva
primena onih statistikih procedura posredstvom kojih se
opisuje jedna varijabla.
Deskriptivna statistika koristi numerike i grafike
metode u cilju opisa i otkrivanja obrazaca nekog seta
podataka, sumarizacije podataka i njihovog
predstavljanja u prikladnoj formi.
Najosnovniji vid deskriptivne statistike jeste korienje
tzv. tabela frekvencije.
Tabele frekvencije u osnovi predstavljaju distribuciju
vrednosti u numerikom ili procentualnom obliku.

Poverenje u institucije:
Skuptina

Grafiki prikaz: Poverenje u


Skuptinu - %
N - 1357
imam veliko povjerenje
uglavnom imam povjerenja
niti im vjerujem niti im ne vjerujem
imam veoma malo povjerenja
nemam nimalo povjerenja

3,1
11,6
24,1
21,7
39,5

Normalna distribucija

Jedno od kljunih pitanja koje se tie frekvencije jeste pitanje distribucije


vrednosti.
Sa ovog stanovita, statistika polazi od jedne pretpostavke, a to je ideja o
normalnoj (simetrinoj) distribuciji.
Normalna distribucija znai da su vrednosti ravnomerno rasporeene na
nain da se potuje tzv. gausova kriva (ova distribucija se naziva i zvono).
Ovakav vid distribucije znai da su srednje vrednosti najfrekventnije a kako
se kreemo ka krajevima manja je frekventnost vrednosti na marginama.
Drugim reima, normalna distribucija ima karakteristike da aritmetika
sredine nalazi na vrhu i da podjednako deli ostale vrednosti.
Normalna distribucija igra veoma vanu ulogu u statistici.
Veliki broj fenomena (varijabli) imaju verovatnou distribucije koja ima
karakteristike normalne distribucije (npr. krvni pritisak).
Takoe, gotovo sve statistike metode polaze ili podrazumevaju normalnu
distribuciju.

Distribucija

rasprostranjenost

Centar

Grafikon 1

Primer normalne distribucije


Histogram

Frequency

1
Mean = 5,00
Std. Dev. = 1,7581
N = 23

0
2,00

4,00

6,00

VAR00002

8,00

Skuptina - poverenje

Asimetrina distribucija
Nasuprot normalnoj distribuciji razlikujemo tzv.
asimetrinu distribuciju
Ovakav oblik distribucije podrazumeva
raspodelu vrednosti na nain da su krajnje
vrednosti frekventnije od srednjih vrednosti
(takozvana U - kriva suprotna Gausovoj krivi).
U ovim sluajevima mere centralne tendencije
imaju malu vrednost obzirom da je standardna
devijacija velika.

Primer asimetrine distribucije

NAPOMENA: Asimetrina distribucija je jedan od kljuniih problema kada se koriste


statistike procedure kako univarijantne tako i multivarijantne.

Distribicije sa jednim i dva vrha (pika)


Vrh 2

Vrh 1

Vrh 1

Mere centralne tendencije


Mere centralne tendencije predstavljaju statistike
vrednosti sumarnog tima koji imaju za cilj da veliki broj
vrednosti na jednoj varijabli sumarno iskau zajednikom
kvantitativnom odrednicom.
Sve mere centralne tendencije imaju dve karakteristike:
prvo, centralnu tendenciju tj. centriranu vrednost koja numeriki
i sumarno daje podatak o jednoj varijabli
drugo, varijabilnost tj. rasprostranenost vrednosti oko centralne
tendencije.

Tipine mere centralne tendencije su aritmetika


sredina, medijana i modus.

Aritmetika sredina
Aritemetika sredina predstavlja jednu od
najeih mera centralne tendencije koja se
koristi za statistiku zakljuivanja ili slui kao
osnov za primenu sofisticiranijih statistikih
metoda.
Aritemtika sredina predstavlja sumu vrednosti
konstinuiranog niza podeljenog sa ukupnim
bojem vrednosti.
Formula za izraunavanje aritmetike sredine je:

Kalkulacija za Aritmetiku sredinu


n
xi
x = i = 1
n
Za niz brojeva 5,3,8,5,6 aritmetika sredina je:
n

i =1

xi
=

5+3+8+5+ 6
5

27
5

= 5.4

Medijana
Medijana predstavlja srednji broj
kontinuiranog niza brojeva kada su
vrednosti poreane od najnie do najvie
ili od najvie do najnie.
Ukoliko je niz brojeva neparan, onda je
medijana broj u sredini.
Ukoliko je broj paran, onda je medijana
srednja vrednost srednja dva broja.

Medijana primer
Npr. Ako se varijabla sastoji od 7 brojeva
5,7,4,5,20,6 i 2 onda se medijana izraunava:
2,4,5,5, 6,7,20 M = 5 (broj u sredini posmatrano
s krajeva

Ukoliko je pak varijabla sa parnim brojem


brojeva (n=6) , npr. varijabla 4,5,5,6,7,20 onda
se medijana izraunava:
4,5,5,6,7,20
M = (5+6)/2 = 5.5

Distribucija 1

Aritmetika sredina

Medijana

Grafikon 3

Distribucija 2

Medijana

Aritmetika sredina

Grafikon 4

Distribucija 3

Aritmetika sredina

Medijana

Grafikon 5

Modus
Modus najea vrednost koja se
pojavljuje u jednom setu brojeva. Npr. ako
je set brojeva:
3,4,6,1,8,8,9,3,4,6,8,2,3,8,8,0,9,8,4,5,6,8,3
,3,4,7,8,9,8,0,8,5,8,
Onda je modus = 8, dakle, broj koji se
najvie puta pojavio u nizu.

Deskriptivna statiskitka poverenje


u Skuptinu

Skor na kolokvijumu distribucija


Descriptives
SUM

Mean
95% Confidence
Interval for Mean
5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis

Lower Bound
Upper Bound

Statistic
13.43
12.25

Std. Error
.594

14.60
13.57
15.00
52.287
7.231
0
26
26
11
-.484
-.781

.199
.396

Mogue distribucije sa istom aritmetikom sredinom

Grafikon 2

Varijabilnost
Obzirom da je varijabilnost veoma vana
karakteristika svake distribucije, u statistici
postoje numerike mere varijabilnosti.
Prema tome, mere centralne tendencije samo
parcijalno opisuju podatke, te su prema tome
mere varijablinosti nune za potpuni opis neke
varijable.
Drugim reima, centralna tendencija uz mere
varijabilnosti nam pomae da vizualizujemo oblik
jedne distribucije.

Opseg (Range)
Opseg (Range) je najjednostavnija mera
varijabilnosti i on odgovara razilici izmeu
najvee i najmanje vrednosti u nizu. Npr,
ako je niz brojeva 2,3,5,8,20,40, onda je
Opseg = 40 2 = 38

Varijansa i Standardna devijacija


Standardna devijacija je jedna od kljunih mera
varijabilnosti koja ukazuje u kojoj su meri
vrednosti udaljene od aritmetike sredine.
Da bi izraunali standardu devijaciju nuno je
prvo izraunati varijansu
Varijansa pretpostavlja da je n brojeva u datom
uzorku jednak sumi kvadrata distance od
aritmetike sredine podeljeno sa ukupnim
brojem vrednosi minus 1 ( n-1). Varijansa se
izraunava po sledeoj formuli:

Kalkulacija za varijansu i SD
n

( xi x)2

i =1

n 1

Npr. ako je niz brojeva 1,2,3,4,5, aritmetika sredina je 3 i onda je varijansa:

4 +1+ 0 +1+ 4
(13)2 +(23)2 +(33)2 +(43)2 +(53)2
= 2.5
=
4
51

Na osnovu varijanse se izraunava standardna devijacija, a ona predstavlja


pozitivni kvadratni koren varijanse. Evo formule:

s =
Prema tome u naem primeru SD je:

s
s=

2 .5 = 1.58

Empirijsko pravilo za interpretaciju


standardne devijacije
Ukoliko je distribucija normalna:
Oko 68% vrednosti e biti obuhvaene +/- 1S
Oko 95% vrednosti e biti obuhvaene +/- 2S
Oko 99,7% vrednosti e biti obuhvaene +/- 3S

Upotrebljivost
Ako su prosena primanja u Srbiji 300 EUR sa
standardnom devijacijom 130 EUR. To znai da oko
68%populacije ima primanja izmeu 170 i 430 EUR i oko
95% populacije ima platu od 40 do 560 EUR (da li je ovo
slua i ako nije ta iz toga sledi?)
Ako prosean gradjanin provede 3 sata pored televizora
dnevno sa standardnom devijacijom od 1 sat, to znai da
oko 68% populacije provodi pored TV-a izmeu 2 i 4
sata i 95% populacije gleda TV izmeu 1 i 5 sati
Ako je prosena ocena na skali od 1-5 za X politiara 3.0
sa standardnom devijacijom 1.5, to znai da ovog
politiara 68% populacije ocenjuje ocenom od 1.5 do 4.5

Grafikon 1

Grafikon 2

34,15% 34,15%
95,45%
2,3%

2,3%
16%

16%
-1

+1

-2

+2

Grafikon 3

99,73%
0,135%

0,135%

-3

+3

DVA KLJUNA STANDARDA KOJA E KASNIJE UNIVERZALNO VAITI ZA


ODREIVANJE STATISTIKE ZNAAJNOSTI (TZV. p vrednost () )

Grafikon 4

Grafikon 5

99%

95%
2,5%

2,5%
0,5%

-1,96

+1,96

-2,58

0,5%

+2,58

Kriterijum za intervale poverenja


Grafikoni pokazuju koji procenat opservacija je
obuhvaen aritmetikom sredinom i bilo koje druge
vrednosti kada je kriterijum za merenje distance
standardna devijacija
Radi testiranja hipoteza, a ovo e biti predmet na
sledeem predavanju, u statistici se koriste dva
standarda, 95% i 99% i ovo su prema tome dva
uobiajena intervala poverenja u okviru kojih
interpretiramo rezultate
Na grafikonima uoiti i zapamtiti da je 95% interval
poverenja +/- 1,96 standardne devijacije, a 99% interval
poverenja +/- 2,58 standardne devijacije

Procena poverenja u dobijenu


vrednost aritmetike sredine
Aritmetika sredina je kljuna mera centralne
tendencije zato to veliki broj statistikih
metoda kojima se testiraju hipoteze operie sa
ovim parametrom
No obzirom da je ovaj podatak proizvod procene
koji se bazira na uzorku, postavlja se pitanje
njegove preciznosti, ili drugim reima, uzorak po
sebi sadri greku merenja, jer znamo
da je:

priblino jednako x
S toga, kljuna stvar jeste da na neki validan
nain procenimo poverenje koje moemo imati u
dobijeni podatak.

DIjalog

Istraiva: Ja sam obavio istraivanje na bazi sluajnog uzorka i na osnovu


rezultata sam dobio podatak da je aritmetika sredina ukupnog broja
zavrenih godina kolovanja u Srbiji 11,87. Budui da sam oekivao da je ta
srednja vrednost manja, mora da je neki problem sa uzorkom
Statistiar: Zato bi problem bio sa uzorkom, je li uzorak bio sluajan ili nije?
Istraiva: Da, bio je sluajan i ukupno je bilo 1000 ispitanika
Statistiar: A kolika je standardna devijacija?
Istraiva: 3.083
Statistiar: (nekoliko minuta provodi za raunarom i zakljuuje)...Ne, ne, sve
je u redu, podatak koji si dobio je sasvim OK, u emu je problem?
Istraiva: Pa problem je u tome to ja mislim da je rezultat mog istraivanja
proizvod loe sree u pogledu izbora ispitanika i mislim da kada bi ponovio
istraivanje ja ne bih dobio istu vrednost.
Statistiar: Vidi, ima sree, ja sluajno imam podatke sa popisa o
celokupnoj populaciji koji ukljuuju podatke o broju zavrenih godina
kolovanja. Ako eli mogu da izvuem jedan uzorak od isto tako 1000
ispitanika da proverimo.
Istraiva: Sjajno! Uradi to to pre...
Statistiar: Evo odmah, to nije nikakav problem imamo bazu podataka u
raunaru. Izvukao sam jedan uzorak i dobio sam podatak da je na bazi tog
uzorka prosean broj godina kolovanja 11,79, dakle, sve je uredu sa
tvojim istraivanjem.

Istraiva: Pa, prosek koji si ti dobio jeste ipak


malo manji od onog koji sam ja dobio, bie ipak
da sam ja bio loe sree... Iako je i taj podatak
daleko iznad mog oekivanja
Statistiar: Ne, ne slaem se da si bio loe sree
evo, napraviemo dvadeset uzoraka pa da
proverimo:

Uzorak 2: 11,88
Uzorak 5: 11,92
Uzorak 8: 12,04
Uzorak 11:11,71
Uzorak 14:12,00
Uzorak 17:11,83
Uzorak 20:11,85

Uzorak 3: 12,01
Uzorak 6: 11,69
Uzorak 9: 11,77
Uzorak 12:11,95
Uzorak 15:11,90
Uzorak 18:11,59

Uzorak 4: 12,06
Uzorak 7: 11,71
Uzorak 10: 11,99
Uzorak 13: 12,05
Uzorak 16: 12,04
Uzorak 19: 12,01

Istraiva: Vidi, sve vrednosti koje si dobio su jako blizu, jesi li ti siguran da
je sve u redu sa raunarom?
Statistiar: Naravno da sam siguran, ja ne znam na osnovu kojih informacija
si ti bazirao svoja oekivanja, ali koliko vidim od 20 uzoraka, samo jedna
vrednost koju sam dobio u uzorku br 18, tanije da je prosek 11,59, je izvan
intervala poverenja koji sam mogao da izraunam na osnovu tvog proseka,
dok je prosek svih ostalih uzoraka u okviru intervala poverenja od 95%.
Istraiva: O kakvim to intervalima govori?
Statistiar: Govorim o intervalu povrenja od 95%, naime to je klasian
standard koji validira dobijene podatke, naroito kada je re o aritmetikoj
sredini
Istraiva: I kako si to izraunao moliu lepo?
Statistiar. Jednostavno, rekao si da si dobio prosek 11,87, da ti je uzorak
bio sluajan sa ukupnim brojem od 1000 ispitanika i da je standardna
devijacija 3,083
Istraiva: Tano tako, i ta s tim?
Statistiar: Dakle, po tvojim podacima moemo rei da je verovatnoa da je
aritmetika sredina koju si dobio rezultat loe sree jednaka verovatnoi 1:
20
Istraiva: Kako to?
Statistiar: Jednostavno, svaka aritmetika sredina po prirodi stvari budui
da je rezultat uzorka a ne itave populacije sadri standardnu greku
merenja. Ova greka se izraunava tako to se standardna devijacija
(3,083) podeli sa kvadratnim korenom ukupnog broja ispitanika:

Statistiar: Dakle, kad obavim ovu operaciju dobijam vrednost da je greka


aritmetike sredine 0,098. Na osnovu toga ja znam sa 95% sigurnosti da se
prosek ukupnog broja kolovanja u Crnoj Gori kree: 11,87 1.96*0.098
Statistiar: Ili tanije, sa 95% poverenja znam da je tvoja aritmetika sredina
izmeu 11,68 i 12,06. Ukoliko pogleda aritmetike sredine koje smo dobili na
osnovu 20 uzoraka, jasno je da samo jedan uzorak (br 18 gde je aritmetika
sredina 11,59) ima aritmetiku sredinu koja nije u okviru ovog intervala, to je
potpuno u skladu sa samim intervalom, jer je 1 uzorak od 20 tano iznosi 5%
verovatnoe.
Istraiva: Sad sam zbunjen, ta tano hoe da kae?
Statistiar: Hou da kaem da ukoliko biramo 100 uzoraka u 95 od njih nai
emo da se aritmetika sredina broja zavrenih godina kolovanja kree u
rasponu od 11,68 do 12,06, a u 5 od tih uzoraka moemo nai da to nije tako.
Ovo je razlog da govorimo u kategorijama 95% intervala poverenja, i da kaemo
da moemo prilino (sa 95% sigurnosti) biti uvereni u podatak.
Istraiva: Dobro, ali nikako mi nije jasna matematika koju si izveo za taj
interval, tanije, jasno mi je kako si izraunao standardnu greku aritmetike
sredine, ali nikako mi nije jasno zato si tu greku mnoio sa 1,96???
Statistiar: Jednostavno zato to tako preporuuje centralna granina teorema,
naime, ako je distribucija normalna, onda polje koje pokriva 95% vrijanse sa obe
strane distribucije ostavlja prostor od po 2,5% na krajevima distribucije a 2,5%
polja odgovara vrednosti od 1,96 standardne devijacije. Dakle, 2,5% povrine
znai da standardnu greku aritmetike sredine moramo mnoiti sa 1.96, a onda
dobijenoj vrednosti dodati i oduzeti tih 2,5% sa obe strane
Istraiva: Dobro, dobro, predajem se.... Prihvatama da je podatak koji sam
dobio sasvim dobar
Statistiar: On je onoliko dobar koliko smo to izrazili 95% intervalom poverenja,
ni vie ni manje od toga......

Aritmetike sredine na veem broju


uzoraka iste populacije

Primer iz dijaloga
N-1000

(11,87- 1.96*0.098) < 95%CI < (11,87- 1.96*0.098)


95% CI= od 11,68 do 12,06

99%CI

(11,87- 2.58*0.098) < 95%CI < (11,87- 2.58*0.098)


99% CI= od 11,62 do 12,12
Mean

11,87

95% Confidence
Interval for
Mean

Lower Bound

99% Confidence
Interval for
Mean

Lower Bound

Upper Bound

Upper Bound

11,68
12,06
11,62
12,12

Jo nekoliko statistika
Descriptives
Ukupan broj zavrsenih
godina skolovanja

Mean
95% Confidence
Interval for Mean

Statistic
11,87
11,68

Lower Bound
Upper Bound

Std. Error
,098

Extreme Values
Ukupan broj zavrsenihHighest 1
godina skolovanja
2
3
4
5
Lowest 1
2
3
4
5

12,06

5% Trimmed Mean
Median
Variance
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis

12,08
12,00
9,504
3,083
0
22
22
2
-1,198
3,743

Huber's
a
M-Estimator
12,05

a. The weighting constant is 1,339.


Percentiles

5
Weighted
Average(Definition 1)
Tukey's Hinges

Ukupan broj zavrsenih


godina skolovanja
Ukupan broj zavrsenih
godina skolovanja

8,00

10
8,00

25

Value
22
21
20
20
20
0
0
0
0
0a

a. Only a partial list of cases with the value 0 are shown in the table
of lower extremes.

,078
,156

M-Estimators

Ukupan broj zavrsenih


godina skolovanja

Case Number
727
83
398
616
857
1004
956
836
813
776

Percentiles
50

75

90

95

16,00

16,00

11,00

12,00

13,00

11,00

12,00

13,00

A.S. i S.D. Poverenje u Institucije


Descriptive Statistics
N
Poverenje u institucije:
Skup{tina
Poverenje u institucije:
Predsednik
Poverenje u institucije:
Vlada
Poverenje u institucije:
Policija
Poverenje u institucije:
Sudstvo
Poverenje u institucije:
Vojska
Poverenje u institucije:
Politi~ke partije
Poverenje u institucije:
Srpsku pravoslavnu crkvu
Valid N (listwise)

Minimum

Maximum

1357

2,17

1,163

1386

2,81

1,367

1393

2,38

1,233

1405

2,58

1,296

1386

2,29

1,219

1368

3,11

1,384

1322

1,87

1,052

1392

3,88

1,311

1131

Mean

Std. Deviation

T-test
Jedno od najeih pitanja koje se postavlja kada je
statistika u pitanju jeste, da li postoje statistiki znaajne
razlike izmeu vrednosti na dvema varijablama
Npr. u sluaju naeg kolokvijuma, da li su statistiki
znaajne razlike izmeu srednje vrednosti sudenata i
studentkinja
Ovo konkretno pitanje bi ukazivako na to da ukoliko su
ove razlike statistiki znaajne, onda je test za jednu od
ove dve grupe bio tei
Tanije za onu grupu kod koje merimo manju aritmetiku
sredinu.
Za ovu svrhu se koristi T-test.
On predstavlja jednostavan nain da se izrauna
statistika znaajnost razila izmeu aritmetikih sredina.
Obzirom da se razliite aritmetike sreine mogu koristiti
kao osnov za merenje mi razlikujemo nekoliko vrsti Ttestova.

emu T-test
Upareni T-test testira nultu hipotezu koja
glasi:ne postoje statistiki snaajne razlike
izmeu jednog para aritmetikih sredina.
Ukoliko je statistika znaajnost (p vrednost)
vea od 0.05, onda je nulta hipoteza potvrena.
Meutim, ako je p vrednost manja od 0.05, onda
je nulta hipoteza opovrgnuta, ili tanije u tom
sluaju tvrdimo: ne moe se rei da ne postoje
statistiki znaajne razlike izmeu jednog para
varijabli.

Studentova distribucija
Grafikon 1

normalna
t (df = 12)
t (df = 5)

Stepeni slobode

Na grafikonu 1 se moe videti poreenje izmeu dve verzije t distribucije


Iz prikaza se moe videti da to je vei broj stepeni slobode (degrees of freedom - df), to se
i t distribucija pribliava normalnoj distribuciji
Broj stepena slobode (df) je prema tome je prema tome vana i konstitutivna karakteristika
same disribucije
Prema tome, distribucija zavisi od broja stepena slobode i u svakom pojedinom sluaju mi
moramo statistiku znaajnost da raunamo u odnosu na distribuciju koja je rezultat
odreenog broja stepena slobode
Broj stepena slobode direktno zavisi od broja opserviranih vrednosti od kojih zavisi
standardna greka merenja.
Kada je re o standardnoj greki aritmetike sredine onda:
df = n-1
Dakle, broj stepeni slobode kada je testirani statistik aritmetika sredina je broj opservacija
minus 1 (napomena: za druge statistike ovaj princip ne vai)
DF je prema tome deskriptivni alat, i on usnovi prikazuje koliko iznosi broj opservacija u
setu podataka koji su slobodni da variraju kada kalkuliemo eljeni statistik.
Drugim relima, kada merimo standardnu devijaciju, mi oduzimamo aritmetiku sredinu od
svake vrednosti n.
U ovom postupku, kada oduzmemo pretposlednju vrednost, automatski znamo vrednost
finalne devijacije budui da suma svih devijacija mora biti jednaka 0
Prema tome, poslednja devijacija nema slobodu varijacije, samo n-1 moe da varira.

Statistika znaajnost t testa


FORMULA ZA IZRAUNAVANJE t TESTA

xx
t=
sx

Dakle, denominator u formuli izraunavanja t statistika je i sam statistik, to znai da


je njegova vredsnost podlona fluktuacijama koje su rezultat uzorkovanja.
Obzorom da t distribucija poiva na pretpostavci manjeg broja opservacija, sasvim je
razumno oekivati spljoteniju distribuciju sa duim krajevima.
Dok je u sluaju normalne distribucije 95% povrine unutar +/- 1,96 standardne
devijacije, a 99% unutar +/- 2,58 standardne devijacije aritmetike sredine, ovo nije
sluaj kada je re o t distribuciji.
Budui da je t distribucija spljotenija sa duim krajevima vie od 5% podruja bie
iza +/- 1,96 standardne devijacije i vie od 1% e biti iza +/- 2,58 standardne
devijacije
Koliko vie, zavisi od konkretne distribucije broja stepeni slobode (df)
to je manji broj stepana slobode, distribucija e biti spljotenija i krajevi e biti dui
Proistie, da to je manji df mi emo morati da idemo dalje od +/- 1,96 standardne
devijacije aritmetike sredine kako bi obuhvatili 95% distribucije i jednako moramo ii
dalje od +/- 2,58 standardne devijacije aritmetike sredine kako bi obuhvatili 99%
distribucije

Odreivanje statistike znaajnosti


testa
Isto kao i u sluaju z statistika, i t test koristi tabelu u
kojoj za odreenu vrednost t testa za dati broj stepena
slobode mi moemo odrediti statistiku znaajnost
ta se zapravo meri? Isto kao i u sluaju z statistika, mi
merimo verovatnou da je neka distribucija rezultat
greke uzorkovanja, dakle, logika je i oba sluaja
identina, samo su kriterijumi u odnosu na razliitu
distribuciju drugaiji
Konkretno, na osnovu tabele se moe videti da je za
pokrivanje 95% podruja distribucije za df =11 potrebna
vredsnost t = +/-2,04; dok je za 99% potrebno t= +/-3,11
Meutim, ako je df = 30, onda je za 95% potrebno t=2,04
a za 99% je potrebno t=2,75, to je vrlo blizu z statistik-u
(1,96 za 05% i 2,58 za 99%)

Korienje t testa za testiranje


hipoteza
Matematiki, kada testiramo hipoteze u
koristi se isti postupak kao kada je re o z
statistiku, s tom razlikom to se kod t testa
statistika znaajnost izraunava u odnosu
na dati broj stepena slobode. Prema tome
formula je:

PRIMER 1
Recimo da smo utvrdili da je prosek na skali religioznosti
u meu uenicima estvrtog razreda srednje kole 20
indexnih poena
Pretostavimo da nas interesuje da li je religioznost vea
ili manja kod jednog odreenog odeljenja u odnosu na
itavu kolu
Budui da smo koristili uzorak iz datog odeljenja koje je
predmet naeg nae analize, mi imamo samo deset
opservacija iz ovog odeljenja. Dakle, t test je jedino
reenje obzirom da se radi o malom broju opservacija.
Na uzorku ovog odeljenja od 10 studenata aritmetika
sedina je 21,2 a standardna devijacija s=3,4

PREMA TOME...

a znamo da je

21.2 20.0
Sledi: t=
= 1.11
1.08

df =9

Za df=9, ako pogledamo tabelu, potrebno je da t bude


jednako ili vee od 2,26 kako bi postigli p<0,05
Drugim reima, t=1.11 je razlika izmeu aritmetikih
sredina koja je pre rezultat greke merenja na osnovu
uzorka nego to je je rezultat razlika koje posotoje
izmeu jednog i ostalih odeljenja, i prema tome mi
odbacujemo nultu hipotezu

PRIMER 1 grafiki
1
p
2

1
p
2

Ho
t (df=9)

1
p
2

1
p
2
p=0.025

1
p
2

-2.26

p=0.025

0
20

1.11
21.2

2.26

T test za dve aritmetike sredine kada


znamo varijansu obe distribucije
U situaciji kada na osnovu relativno malog broja sluajeva (recimo
manje od 30 standardni kritetijum za mali uzorak) elimo da
uporedimo aritmetike sredine kako bi testirali hipoteze, koristimo
matematiku formulu koja uzima u obzir injenicu da nam je poznata
varijansa za obe distribucije koje su predmet naeg posmatranja.
Formula je naizgled sloena ali je u biti jednostavna:

t=

( x1 x2 ) ( 1 2 )
2
1

2
2

(n1 1) s + (n2 1) s 1 1
( + )
n1 + n2 2
n1 n2
Primetiti da

n1 + n2 2 ,

jeste broj stepeni slobode (df)

PRIMER 2
Imamo dve grupe uenika pri emu su istu
materiju ovi studenti savladavali korienjem
razliitih metoda nastave i mi smo im dali isti test
na kraju godine ne bi li proverili da li postoji
razlika izmeu metoda 1 i metoda 2 nastave.
Uzeli smo pet uenika kao reprezentativne za
metod 1 i pet uenika za metod 2.
Grupa 1 je imala 27 poena na testu a grupa 2 je
imala 31 poen. Standardne devijacije:

s1 = 9

dok

s2 = 12

PREMA TOME...
t=

( x1 x2 ) ( 1 2 )
2
1

2
2

(n1 1) s + (n2 1) s 1 1
( + )
n1 + n2 2
n1 n2
t=

(27 31) (0)

4
=
= 0.60
6.7
4(9) 2 + 4(12) 2 1 1
( + )
5+52
5 5
df=5+5-2=8

PRIMER 2 grafiki
1
p
2

1
p
2

Ho
t (df=8)

s x1 s x2 = 6.7
1
p
2

1
p
2

p=0.025

1
p
2

p=0.025

t=-0.60

-2.31
-4

0
0

2.31

Upareni T-test Poverenje:


Sudstvo - Vlada
Paired Samples Statistics
Mean
Pair
1

Poverenje u
institucije: Vlada
Poverenje u
institucije: Sudstvo

Std. Deviation

Std. Error
Mean

2,37

1353

1,227

,033

2,27

1353

1,215

,033

Paired Samples Test


Paired Differences

Mean
Pair
1

Poverenje u institucije:
Vlada - Poverenje u
institucije: Sudstvo

,106

Std. Deviation

Std. Error
Mean

1,254

,034

t = 3,1; df, 1352 p < 0.01

95% Confidence
Interval of the
Difference
Lower
Upper
,039

,173

t
3,110

df
1352

Sig. (2-tailed)
,002

T test poredjenje pitanja 2 i 5


Paired Samples Statistics

Pair
1

P2
P5

Mean
2.32
2.25

N
148
148

Std. Error
Mean
.135
.143

Std. Deviation
1.638
1.745

Paired Samples Test


Paired Differences

Pair 1

P2 - P5

Mean
.074

Std. Deviation
1.429

Std. Error
Mean
.117

95% Confidence
Interval of the
Difference
Lower
Upper
-.158
.306

t = 0,63; df, 147 p > 0.05

df
.633

147

Sig. (2-tailed)
.528

T test poredjenje pitanja 1 i 2


Paired Samples Statistics

Pair
1

P1
P2

Mean
3.47
2.32

N
148
148

Std. Deviation
1.680
1.638

Std. Error
Mean
.138
.135

Paired Samples Test


Paired Differences

Pair 1

P1 - P2

Mean
1.149

Std. Deviation
1.430

Std. Error
Mean
.118

95% Confidence
Interval of the
Difference
Lower
Upper
.916
1.381

t = 0,63; df, 147 p < 0.01

t
9.770

df
147

Sig. (2-tailed)
.000

Nezavisni T-test
Nezavisni T-test, ima istu svrhu i logiku
kao i upareni s tim to se on upotrebljava
u situaciji kada elimo da izmerimo da li
postoje statistiki znaajne razlike jedne
iste varijable (aritmetike sredine) kod dve
razliite grupe (klase).
Npr, uporeujemo aritmetike sredine
ukupnog skora kod mukaraca i ena

Nezavisni T-test Sudstvo: ene i


Mukarci
Group Statistics
Pol
mu{ki
`enski

Poverenje u
institucije: Sudstvo

Mean
2,26
2,32

673
709

Std. Deviation
1,197
1,239

Std. Error
Mean
,046
,047

Independent Samples Test


Levene's Test for
Equality of Variances

F
Poverenje u
institucije: Sudstvo

Equal variances
assumed
Equal variances
not assumed

1,880

Sig.
,171

t-test for Equality of Means

df

Sig. (2-tailed)

Mean
Difference

Std. Error
Difference

95% Confidence
Interval of the
Difference
Lower
Upper

-,920

1380

,358

-,060

,066

-,189

,068

-,921

1379,207

,357

-,060

,066

-,189

,068

t= -0.92 df, 1380 p > 0.05,

Nezavisni T-test primer: Osnovno


i srednje obrazovanje
Group Statistics

Poverenje u
institucije: Sudstvo

Obrazovanje
Osnovno obrazovanje
Srednje i vie
obrazovanje

423

Mean
2,54

Std. Deviation
1,257

Std. Error
Mean
,061

701

2,14

1,172

,044

Independent Samples Test


Levene's Test for
Equality of Variances

F
Poverenje u
institucije: Sudstvo

Equal variances
assumed
Equal variances
not assumed

8,963

Sig.
,003

t-test for Equality of Means

df

Sig. (2-tailed)

Mean
Difference

Std. Error
Difference

95% Confidence
Interval of the
Difference
Lower
Upper

5,406

1122

,000

,401

,074

,256

,547

5,312

839,939

,000

,401

,075

,253

,549

t= 5.41 df, 1122 p < 0.01

T test poredjenje izmedju


studenata i studentkinja
Group Statistics

SUM

ROD
muski
zenski

N
33
114

Mean
14.91
13.11

Std. Error
Mean
1.256
.668

Std. Deviation
7.217
7.137

Independent Samples Test


Levene's Test for
Equality of Variances

F
SUM

Equal variances
assumed
Equal variances
not assumed

.000

Sig.

t-test for Equality of Means

.991

df

Sig. (2-tailed)

Mean
Difference

Std. Error
Difference

95% Confidence
Interval of the
Difference
Lower
Upper

1.269

145

.206

1.795

1.414

-1.000

4.590

1.261

51.512

.213

1.795

1.423

-1.061

4.651

t= 1.27 df, 145 p > 0.05,

Ispitivanja veza izmeu varijabli


Uobiajen zadatak u statistici jeste ispitivanje odnosa izmeu sve
varijable.
Odnos izmeu dve varijable moe ii od potpune nepovezanosti, do
sluajne povezanosti, preko odreene veze koja moe postojati do
uzrono-posledine povezanosti.
Ispitivanje ovih veza je veoma vano iz praktinih razloga, npr. od
kojih faktora zavisi glasanje za neku partiju, ili da li od mesta
boravka (selo-grad) zavisi apstinencija na izborima, ili od kojih
faktora zavisi opredeljenje politiku partiju itd.
Postoji itav niz statistikih metoda koji se bavi upravo ovim
pitanjima povezanosti izmeu varijabli. Najjednostavnija metoda je
tzv. unakrsna tabela (krostabulacija).
Evo jednog primera sa naeg kolokvijuma:

Unakrsna tabela
Pol * Da li bi po Vaem miljenju Srbija treba u budu}nosti da bude ~lanica NATO
Crosstabulation

Pol

mu{ki
`enski

Total

Count
% within Pol
Count
% within Pol
Count
% within Pol

x2

Da li bi po Vaem miljenju Srbija


treba u budu}nosti da bude ~lanica
NATO
Nemam
odredjeno
DA
NE
mi{ljenje
261
339
112
36,7%
47,6%
15,7%
185
307
283
23,9%
39,6%
36,5%
446
646
395
30,0%
43,4%
26,6%

= 86,01; df = 2, p = 0,01

Total
712
100,0%
775
100,0%
1487
100,0%

Obrazovanje NATO
Obrazovanje * Da li bi po Vaem miljenju Srbija treba u budu}nosti da bude ~lanica NATO Crosstabulation

Obrazovanje

Bez obrazovanja
Osnovno obrazovanje
Srednje i vie
obrazovanje
Visoko obrazovanje

Total

Count
% within Obrazovanje
Count
% within Obrazovanje
Count
% within Obrazovanje
Count
% within Obrazovanje
Count
% within Obrazovanje

Da li bi po Vaem miljenju Srbija


treba u budu}nosti da bude ~lanica
NATO
Nemam
odredjeno
mi{ljenje
DA
NE
20
33
46
20,2%
33,3%
46,5%
141
183
133
30,9%
40,0%
29,1%
221
365
166
29,4%
48,5%
22,1%
51
50
28
39,5%
38,8%
21,7%
433
631
373
30,1%
43,9%
26,0%

2 = 38,8; df = 6, p < 0,01

Total
99
100,0%
457
100,0%
752
100,0%
129
100,0%
1437
100,0%

Godine - HAG
godine * Da li, po Vaem miljenju Srbija treba u potpunosti da saradjuju sa Hakim
Tribunalom i da izruce sva lica osumnjicena za ratne zlo~ine Crosstabulation

godine

18-34
35-54
55+

Total

Count
% within godine
Count
% within godine
Count
% within godine
Count
% within godine

Da li, po Vaem miljenju Srbija treba


u potpunosti da saradjuju sa Hakim
Tribunalom i da izruce sva lica
osumnjicena za ratne zlo~ine
Nemam
odredjeno
DA
NE
mi{ljenje
112
213
94
26,7%
50,8%
22,4%
177
277
95
32,2%
50,5%
17,3%
117
279
129
22,3%
53,1%
24,6%
406
769
318
27,2%
51,5%
21,3%

2 = 17,26; df = 4, p < 0,01

Total
419
100,0%
549
100,0%
525
100,0%
1493
100,0%

Krostab - pojanjenje
Analize distribucije ukazuje da razlike koje primeujemo
nisu statistiki znaajne i za ovu svrhu se koristi - test
(Pearson Chi-Square).
Ovaj test ispituje hipotezu da li je distribucija vrednosti
po redovima i kolonama nezavisna. Ako je statistika
znaajnost mala (p<0.05), to nam ukazuje da je mogue
da postoji izvesna veza izmeu varijabli.
Ako je pak p>0.05 onda moemo rei da ne postoji veza
izmeu varijabli, to je na sluaj, ili drugim reima, u
naem sluaju ne postoje statistiki znaajne razlike
izmeu studenata istudentkinja kada su rezultati
kolokvijuma u pitanju.
Test ispituje utvrenu distribuciju u odnosu na normalnu
distribuciju a formula je:

Hi-kvadrat - formula

x =

svecelije

(utvrdjena ocekivana )
ocekivana

Korelacije
Korelacije izmeu dve varijable je daleko znaajniji parametar koji nam
ukazuje na moguu povezanost izmeu njih. Ovde je vano imati u vidu da se
radi o statistikoj povezanosti, pri emu nije nuno da se radi o realnoj
povezanosti, naime sluajne korelacije su esto deavaju i u tome treba biti
oprezan. Najjednostavniji nain da se shvati korelacija jeste ideja preklapanja
varijanse, pri emu podrazumevamo da izmeu dve klase pojava postoji
interferentno polje (tzv. Venovi dijagrami). Ovo interferentno polje pokazuje
korelaciju izmeu varijabli ili onaj deo koijm jedna varijabla objanjava drugu
varijablu. Ukoliko je interferentno polje vei je i stepen korelacije, ukoliko je
ono manje manja je i korelacija. Takoe, treba obratiti panju da na ovom
dijagramu krugovi nisu iste veliine, to znai da nije jednaka varijansa za ove
dve varijable.

Formula za korelacije i
interpretacija

rxy

objasnjena var ijansaY


ukupna var ijansomY

Ukoliko postoji reciprocitet u smislu da sve vrednosti na jednoj


varijabli odgovaraju vrednostima na drugoj varijabli korelacija je
jednaka jedan (r = 1). Kriterijumi za vrednosti pearsonove
korelacije su:
r < 0,30 niska korelacija
r > 0,30 a < 0,45 srednja korelacija
x
r > 0,45 visoka korelacija

z z

r=
n 1

Koeficijenti korelacije dijapazon


grafiki
Maksimalna
negativna
korelacija

-1

Maksimalna
pozitivna
korelacija

Nema korelacije

-0.5

Poveava se stepen
negativne korelacije

+0.5

Poveava se stepen
pozitivne korelacije

+1

Korelaciona matrica - kolokvijum


Correlations
P1
P1

P2

P3

P4

P5

Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N

1
148
.629**
.000
148
.630**
.000
148
.506**
.000
148
.472**
.000
148

P2
.629**
.000
148
1
148
.611**
.000
148
.682**
.000
148
.645**
.000
148

**. Correlation is significant at the 0.01 level (2-tailed).

P3
.630**
.000
148
.611**
.000
148
1
148
.495**
.000
148
.614**
.000
148

P4
.506**
.000
148
.682**
.000
148
.495**
.000
148
1
148
.627**
.000
148

P5
.472**
.000
148
.645**
.000
148
.614**
.000
148
.627**
.000
148
1
148

POVERENJE U INSTITUCIJE
Correlations

Poverenje u institucije:
Skup{tina
Poverenje u institucije:
Predsednik
Poverenje u institucije:
Vlada

Poverenje u
Poverenje u
institucije:
Poverenje u Poverenje u Poverenje u Poverenje u Poverenje u Poverenje u
institucije:
Srpsku
institucije:
institucije:
institucije:
institucije:
institucije:
institucije:
Politi~ke
pravoslavnu
Skup{tina
Predsednik
Vlada
Policija
Sudstvo
Vojska
partije
crkvu
Pearson Correlation
1
.641**
.765**
.555**
.589**
.410**
.558**
.244**
Sig. (2-tailed)
.000
.000
.000
.000
.000
.000
.000
N
1322
1313
1314
1312
1267
1277
1278
1250
Pearson Correlation
.641**
1
.744**
.586**
.531**
.478**
.379**
.182**
Sig. (2-tailed)
.000
.000
.000
.000
.000
.000
.000
N
1313
1402
1348
1378
1316
1331
1313
1313
Pearson Correlation
.765**
.744**
1
.595**
.619**
.433**
.573**
.192**
Sig. (2-tailed)
.000
.000
.000
.000
.000
.000
.000
N
1314
1348
1359
1350
1307
1311
1311
1282

Poverenje u institucije:
Policija

Pearson Correlation
Sig. (2-tailed)
N
Poverenje u institucije:
Pearson Correlation
Sudstvo
Sig. (2-tailed)
N
Poverenje u institucije:
Pearson Correlation
Vojska
Sig. (2-tailed)
N
Poverenje u institucije:
Pearson Correlation
Politi~ke partije
Sig. (2-tailed)
N
Poverenje u institucije:
Pearson Correlation
Srpsku pravoslavnu crkvu Sig. (2-tailed)
N
**. Correlation is significant at the 0.01 level (2-tailed).

.555**
.000
1312
.589**
.000
1267
.410**
.000
1277
.558**
.000
1278
.244**
.000
1250

.586**
.000
1378
.531**
.000
1316
.478**
.000
1331
.379**
.000
1313
.182**
.000
1313

.595**
.000
1350
.619**
.000
1307
.433**
.000
1311
.573**
.000
1311
.192**
.000
1282

1
1403
.592**
.000
1324
.577**
.000
1339
.389**
.000
1319
.269**
.000
1322

.592**
.000
1324
1
1334
.498**
.000
1298
.493**
.000
1285
.301**
.000
1261

.577**
.000
1339
.498**
.000
1298
1
1354
.286**
.000
1289
.393**
.000
1285

.389**
.000
1319
.493**
.000
1285
.286**
.000
1289
1
1328
.217**
.000
1267

.269**
.000
1322
.301**
.000
1261
.393**
.000
1285
.217**
.000
1267
1
1353

Korelaciona matrica primer 1


Correlations

Boris Tadic

Tomislav Nikolic

Aleksandar Vucic

Vojislav Kostunica

Vojislav Seselj

Cedomir Jovanovic

Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N

Boris Tadic
1
1382
.070*
.014
1233
.097**
.001
1234
.149**
.000
1201
-.049
.105
1106
.377**
.000
1160

*. Correlation is significant at the 0.05 level (2-tailed).


**. Correlation is significant at the 0.01 level (2-tailed).

Tomislav
Nikolic
.070*
.014
1233
1

Aleksandar
Vojislav
Vucic
Kostunica
.097**
.149**
.001
.000
1234
1201
.879**
.429**
.000
.000
1258
1234
1167
.879**
1
.477**
.000
.000
1234
1257
1182
.429**
.477**
1
.000
.000
1167
1182
1215
.380**
.389**
.404**
.000
.000
.000
1089
1098
1101
-.020
.034
-.007
.515
.263
.827
1104
1111
1098

Vojislav
Cedomir
Seselj
Jovanovic
-.049
.377**
.105
.000
1106
1160
.380**
-.020
.000
.515
1089
1104
.389**
.034
.000
.263
1098
1111
.404**
-.007
.000
.827
1101
1098
1
-.003
.919
1120
1036
-.003
1
.919
1036
1180

Regresiona linija
40

30

R
O20
K
S

10

0,0

5,0

10,0

15,0

ECTB

20,0

25,0

Regresiona linija Primer


40

30

R
O20
K
S

10

I pitanje

Linearna regresija

Y= Bo+B1x1+.... BnXn+ ei

LINEARNA REGRERSIJA

Y =B0 +B1x1 +B2x2 +......Bnxn +Ei

Linearna regresija - predikcija rezultata na kolokvijuma


Coefficientsa

Model
1

(Constant)
P1
P5

Unstandardized
Coefficients
B
Std. Error
.406
.492
2.189
.143
2.407
.138

Standardized
Coefficients
Beta
.509
.581

t
.825
15.290
17.462

Sig.
.411
.000
.000

a. Dependent Variable: SUM


Model Summary
Model
1

R
.936a

R Square
.875

Adjusted
R Square
.874

Std. Error of
the Estimate
2.571

a. Predictors: (Constant), P5, P1

x1
Y

x2

SKOR = 0,41 + (2,19x 3) + (2,41x2) = 11.8 (student dobio 12)

Logisticka regresija

Verovatnoca(dogadjanja)
log(
= B0 + B1 x1 + B2 x2 + ......Bn xn
Verovatnoca(nedogadjanja)

Logistika Regresija Prediktori


za referendumsko DA
B

S.E.

df

Sig.

Exp(B)

95,0% C.I.for EXP(B)


Lower

Srbin

Upper

-2,366

,412

,000

,094

,042

,211

Crnogorac

1,347

,370

,000

3,844

1,863

7,934

Bosnjak_Musliman

1,847

,415

,000

6,342

2,812

14,302

Albanac

3,147

,602

,000

23,265

7,156

75,636

,055

,025

,030

1,056

1,005

1,110

sever

-,327

,224

,144

,721

,465

1,119

centar

,037

,197

,852

1,037

,705

1,528

-,166

,145

,250

,847

,638

1,124

,009

,005

,056

1,009

1,000

1,018

-1,354

,609

,026

,258

Obrazovanje

Pol
Starost
Constant

Logistika regresija standardizovani


regresioni koeficijenti

GRAFIKI REGRESIONI
KOEFICIJENTI
3,147

1,847
1,347

Srbin
Crnogorac
Bosnjak_Musliman
0,055

0,009

Albanac
Obrazovanje
Starost

-2,366

You might also like