Professional Documents
Culture Documents
Statistika PDF
Statistika PDF
Statistika PDF
UP FAMNIT, Biopsihologija
Zapiski s predavanj
Martin Rai
NEPOPOLNA PUBLIKACIJA
Datum zadnje spremembe: 8. marec 2016
Kazalo
1. Uvod
1.1
Formalizacija podatkov . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Merske lestvice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3
Nekaj ve o vzorenju
1.4
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2
2.3
2.4
19
Dihotomne spremenljivke . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.1
Povzemanje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.2
2.1.3
Testiranje delea . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Imenske spremenljivke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.1
Frekvenna porazdelitev . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.2
Urejenostne spremenljivke . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.1
2.3.2
Kumulativne frekvence . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.3.3
Kvantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.3.4
2.3.5
2.3.6
Testiranje karakteristik . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.3.7
Intervalske spremenljivke . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.4.1
2.4.2
Mere razprenosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3
M. RAI: STATISTIKA
2.4.3
Standardizacija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.4.4
2.4.5
2.4.6
Tokasto ocenjevanje . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.4.7
3.2
3.3
3.4
71
Vrednotenje asociiranosti . . . . . . . . . . . . . . . . . . . . . . . . 72
3.1.2
Testiranje neasociiranosti . . . . . . . . . . . . . . . . . . . . . . . . 75
Kovarianca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
3.2.2
3.2.3
Testiranje nekoreliranosti . . . . . . . . . . . . . . . . . . . . . . . . 86
3.3.2
3.3.3
3.4.2
Testiranje povezanosti . . . . . . . . . . . . . . . . . . . . . . . . . 94
3.5
3.6
3.7
3.8
Literatura
107
Viri
109
1.
Uvod
Statistika je veda, ki preuuje bolj ali manj mnoine podatke (pojave) ali pa tudi pojme,
ki so motivirani z njimi. Med drugim zajema:
Zbiranje podatkov, torej kako (pri doloenih praktinih, npr. nannih omejitvah)
pravilno zbrati podatke, od katerih lahko priakujemo im natannejo informacijo
o zadevi, ki nas zanima. Pomemben del te veje je teorija vzorenja (angl. sampling).
Primer : elimo vedeti, kdo bo zmagal na volitvah. Nikakor ne moremo povpraati
vseh volivcev, a tudi e bi jih, ni reeno, da nam bodo odgovorili enako, kot bodo
volili, e nam bodo sploh dali odgovor. Ta motnja je toliko veja, kolikor ve asa
je e do volitev. Zato predvolilne ankete niso vedno zanesljive, zelo zanesljive pa so
vzporedne volitve, e se prav izvedejo. Nekaj ve o tem malo kasneje.
Povzemanje podatkov temu pravimo opisna statistika (angl. descriptive statistics).
Primer : kaj vidimo iz naslednjih rezultatov kolokvija:
50, 63, 52, 19, 69, 31, 40, 35, 47, 25, 35, 70, 99, 28, 52, 79, 68, 42, 55, 55, 0, 32, 58, 50, 28, 25, 67, 55, 60, 35, 27, 50, 55, 39, 75, 54,
75, 88, 60, 38, 64, 65, 53, 45, 29, 10, 55, 20, 27, 98, 85, 50, 55, 53, 74, 5, 50, 95, 49, 35, 23, 23, 72, 68, 30, 30, 80, 75, 47, 15, 88, 100,
60, 62, 17, 30, 100, 75, 40, 75, 78, 15, 90, 0, 25, 40, 68, 40, 55, 55, 55, 71, 45, 30, 85, 73, 33, 43, 41, 24, 37, 50, 85, 41, 48, 10, 35, 5,
40, 93, 33, 55, 20, 98, 56, 70, 25, 65, 68, 74, 80, 90, 57, 40, 15, 62, 37, 65, 25, 12, 49
.
Prav dosti e ne! Doloen vtis nam da povpreni rezultat (aritmetina sredina) 50 5,
veliko pa pove tudi histogram:
M. RAI: STATISTIKA
25
20
15
10
09
1019
2029
3039
4049
5059
6069
7079
8089
90100
A
B
07
815
1623
2439
3239
4047
4855
5663
6472
Tukaj teko kar tako kaj trdimo. Mono je, da je bila skupina A res laja, mono
pa je tudi, da skupino so A pisali bolji tudenti (tudi ne da bi izvajalec kolokvija
to hotel). Tu nam inferenna statistika lahko pomaga, a ni ne moremo trditi z
gotovostjo. Lahko pa sklepanje nastavimo tako, da se zmotimo denimo najve v 5%
primerov. To je osnovna lozoja inferenne statistike.
Glede na zgoraj povedano je jasno, da kot matematino podlago za inferenno statistiko
potrebujemo teorijo verjetnosti. Le-to v zelo veliki meri potrebujemo tudi pri vzorenju
(nekaj ve o tem malo kasneje).
M. RAI: STATISTIKA
1.1
Formalizacija podatkov
hitrost
vetra
(km/h)
Postaja
oblanost
padavine
temperatura
( C)
Kredarica
v oblakih
posamezne
sneinke
13
preteno
oblano
11
oblano
22
Letalie
Edvarda Rusjana
Maribor
Letalie
Joeta Punika
Ljubljana
Letalie Portoro
oblano
Ljubljana
oblano
rahlo
deuje
rahlo
deuje
Tukaj postaja predstavlja enoto, padavine, oblanost, temperatura ter smer in hitrost
vetra pa so spremenljivke.
Vasih ni isto nedvoumno, kaj je statistina mnoica oz. njene enote.
Primer : Recimo, da se vpraamo, koliko prebivalcev je imela v povpreju slovenska obina
dne 1. 1. 2012. Izvleek iz podatkov:
M. RAI: STATISTIKA
Ljubljana 280.607, Maribor 111.550, Kranj 55.451, Koper 53.037, . . . , Hodo 379.
Vseh obin: 211.
alec
iri
1
M. RAI: STATISTIKA
Zanima nas, ali so se velikosti stanovanj v obeh obmojih doloale po istem kljuu.
V tem primeru je enota stanovanje. Populacijo sestavlja 3267 enot, od tega 2092 enot iz
alca in 1175 enot iz irov. Na njej lahko deniramo dve smiselni spremenljivki: velikost
stanovanja, ki ima 6 monih vrednosti in je urejenostna spremenljivka, in mestno obmoje,
ki ima dve moni vrednosti: alec in iri. Slednja spremenljivka je imenska, a je, ker ima
le dve moni vrednosti, tudi dihotomna.
Narobe pa bi bilo to interpretirati kot mnoico 12 enot, 6 iz alca in 6 iz irov,
na katerih bi bila denirana razmernostna spremenljivka, ki bi imela na nai mnoici
vrednosti 29, 442, 788, 351, 158, 324, 5, 61, 184, 197, 169 in 559.
1.2
Merske lestvice
slabo
srednje
dobro
zelo dobro
10
M. RAI: STATISTIKA
dvakratnik vredosti a. Primeri: mo motorja, dohodek, odtenek sivine (e jo merimo
z instrumentom ali doloimo raunalniko) in tudi temperatura, kadar jo je smiselno
gledati v kelvinih, recimo pri ziki nizkih temperatur (blizu absolutne nile), pri
kinetini teoriji plinov in pri preuevanju zvezd.
Kraje pravimo, da je statistina spremenljivka imenska, urejenostna, intervalska oz. razmernostna, e je izmerjena na imenski, urejenostni, intervalski oz. razmernostni merski
lestvici.
Vsako razmernostno spremenljivko lahko gledamo tudi kot intervalsko, vsako intervalsko kot urejenostno in vsako urejenostno kot imensko. Vendar pa pri tem vedno izgubimo
nekaj informacije. Posebej veliko jo izgubimo, e urejenostno spremenljivko degradiramo
v imensko, zato tega navadno ne ponemo.
Poseben primer merskih lestvic so dihotomne ali tudi binarne, to so take, ki lahko
zavzemajo le dve vrednosti, recimo:
da/ne;
za/proti;
pravilno/nepravilno;
kontrolna/eksperimentalna skupina.
Tudi e je dihotomna lestvica opisna, jo lahko vasih naravno obravnavamo kot tevilsko,
navadno tako, da vrednostma priredimo tevili 0 in 1.
Pri primeru z vremenom so padavine, oblanost in smer vetra imenske spremenljivke,
pri katerih lahko povemo, katere vrednosti so si blizu. Temperatura je intervalska, hitrost
vetra pa je razmernostna spremenljivka.
Smer in hitrost vetra lahko zdruimo v razmernostno vektorsko spremenljivko. Tudi
te so pomembne, a se z njimi ne bomo ukvarjali.
e bi pri oblanosti gledali le, koliko neba ni vidnega (meglo bi torej izenaili z oblanostjo) in tega ne bi kvantitativno merili (recimo v odstotkih), temve bi le loili npr. med
jasnim, delno oblanim, preteno oblanim in oblanim vremenom, bi bila oblanost urejenostna spremenljivka. Dele neba v odstotkih, ki ga zakrivajo oblaki, pa bi bil razmernostna spremenljivka.
Iz padavin je malo teje narediti urejenostno spremenljivko, ki ne bi mogla biti tudi
razmernostna: teko je namre primerjati de in sneg. Najbolj objektivno bi bilo meriti,
koliko milimetrov padavin pade recimo na uro: to bi bila razmernostna spremenljivka.
Glavna razlika med urejenostnimi in intervalskimi lestvicami je ta, da ne moremo
primerjati razkorakov med posameznimi vrednostmi. Zato tudi ne moremo raunati povpreij. Dostikrat sicer urejenostno spremenljivko poviamo v intervalsko, tako da vrednostim priredimo tevilske vrednosti. Rezultati nadaljnje obdelave pa so lahko zavajajoi.
V nekem podjetju bi lahko imeli naslednjo strukturo izobrazbe:
11
M. RAI: STATISTIKA
Nedokonana osnovna ola 70
Osnovna ola
5
Poklicna srednja ola
2
Gimnazija
1
Fakulteta
22
1.3
Nekaj ve o vzorenju
12
M. RAI: STATISTIKA
V istem asu pa je mladi statistik George Gallup povpraal le 50.000 volivcev in dobil
rezultat 44% za Landona in 56% za Roosevelta.4 Kljub veliko manjemu vzorcu je dobil
dosti natannejo oceno, ki je pravilno napovedala zmagovalca. Gallup pa je napovedal
tudi, kaken bo izid raziskave Literary Digesta: iz vzorca 3.000 anketirancev je napovedal,
da bo rezultat 56% za Landona in 44% za Roosevelta. [20] Zmotil se je torej le za odstotek!
Ocena karakteristike doloene spremenljivke na populaciji na podlagi iste karakteristike na vzorcu bo dobra, e bo odloitev, ali je enota izbrana v vzorec ali ne, neodvisna
od vrednosti spremenljivke. Neodvisnost je sicer mono gledati na ve nainov. e
jo gledamo na verjetnostnem prostoru, ki zajema populacijo in v katerem so vse enote
enako verjetne, neodvisnost pomeni natanno napoved delea: e je recimo A dogodek,
da sluajno izbrani volivec voli Landona, in B dogodek, da je volivec izbran v vzorec,
neodvisnost dogodkov A in B pomeni, da je P(A | B) = P(A): prvo je dele anketiranih
volivcev, ki volijo Landona, drugo pa dele vseh volivcev, ki volijo Landona. A tovrstno
neodvisnost je v praksi nemogoe dosei: e bi jo hoteli zagotoviti, bi morali preesati
celotno populacijo. Da pa se jo dosei vsaj priblino ali pa v irem pomenu, kot bomo
videli malo kasneje.
Literary Digest je bil od elene neodvisnosti vsekakor zelo dale, njegov vzorec je bil
mono pristranski. Zakaj? Literary Digest je ankete po poti poiljal svojim naronikom, telefonskim naronikom, imetnikom avtomobilov, lanom raznih elitnih klubov in
podobno, skratka volivcem, ki jih je bilo lahko izbrskati. Toda biti naroen na Literary
Digest, imeti telefon ali avto ali biti lan elitnega kluba je v tistem asu pomenilo biti
dobro situiran, politina opredelitev pa je lahko zelo odvisna od socialnega poloaja. Spomnimo, da je bil to as velike gospodarske krize, ko je bilo biti dobro situiran e teje kot
sicer. Huda teava raziskave Literary Digesta je bila tudi velika neodzivnost, saj je na
anketo odgovorilo le 23% vpraanih. Tudi dejstvo, ali se je kandidat odzval na anketo ali
ne, je lahko zelo povezano z vrednostjo spremenljivke, ki nas zanima, zato je neodzivnost
lahko znaten vir pristranskosti.
Kako dosei vsaj priblino neodvisnost izbire enote v vzorec in vrednosti spremenljivke,
ki nas zanima? Eden od nainov, kjer to doseemo v veliki meri, je sistematino vzorenje,
kjer enote otevilimo, nakar v vzorec vzamemo recimo vsako deseto enoto. A tudi tu se
lahko skrivajo pasti: e elimo recimo oceniti, koliko ljudi v povpreju v eni uri preka
Titov trg v Kopru in to naredimo tako, da jih tejemo 24 nedelj zapored med 6. in 7. uro
zjutraj, ocena ne bo dobra.5
Preizkuen nain za doseg neodvisnosti je vpeljava sluaja v vzorni nart: odloitev,
katere enote vzeti v vzorec, je sluajna. Temu pravimo verjetnostno vzorenje. Povedano
slikovito, pri tem vzorenju meemo kocko. e je pravilno izvedeno, je zagotovljena
neodvisnost v irem smislu, ko verjetnostni prostor vkljuuje tako populacijo kot tudi
sluaj, na podlagi katerega vzorimo. V tem primeru se priakovani dele na vzorcu
.
.
Natanneje, 44 3% za Landona in 55 7% za Roosevelta.
5
Ta raziskava sicer ne pae isto v paradigmo populacija vzorec, a v dovolj dobrem pribliku lahko
vzamemo, da so enote enourni intervali v doloenem obdobju, spremenljivka pa je tevilo ljudi, ki v
posameznem intervalu prekajo Titov trg. e tejemo vsako nedeljo ob isti uri, to pomeni, da v vzorec
vzamemo vsako 168. enoto, se pravi, da gre za sistematino vzorenje.
4
M. RAI: STATISTIKA
13
Povedano bolj po domae, e bo steklenica vselej dobro pretresena, bodo nae napovedi v
povpreju tone. Seveda bodo napovedi toliko bolj tone, kolikor veji bo vzorec in kolikor
manj raznolika bo spremenljivka, ki nas zanima. e ocenjujemo dele enot z doloeno
lastnostjo
in ta dele ni preblizu 0 ali 1, je tipina napaka, ki jo naredimo, reda velikosti
1/ n.
.
Primer . Za vzorec velikosti 2 3 milijona, kot ga je vzela revija Literary Digest, predvideni
.
red velikosti napake znaa priblino 0 00066. To je znatno manj od dejanske napake, ki
.
je znaala 0 19. Vzorec, ki ga je pri predsednikih volitvah v ZDA leta 1936 vzela revija
Literary Digest, torej e malo ni bil reprezentativen.
A tudi pri Gallupovem vzorcu velikosti 50.000 predvideno red velikosti napake znaa
.
.
priblino 0 0045, kar je kar nekajkrat manj od dejanske napake 0 06. Torej se je tudi
Gallup odrezal slabe kot pri enostavnem sluajnem vzorenju. Vsekakor pa je dosegel
vejo reprezentativnost kot Literary Digest. Ta revija se je kmalu po omenjenih volitvah
znala v steaju.
e en primer . Drugi krog predsednikih volitev v Sloveniji 2. 12. 2012
Delo Stik 27.29. 11. 2012: Pahor 55%, Trk 24%, ne vem 21%, n = 786.
.
.
Vzporedne volitve (Mediana): Pahor 67 03%, Trk 32 97%, n = 11.629.
.
.
Uradni rezultat: Pahor 478.859 (67 37%), Trk 231.971 (32 63%).
e preraunamo rezultate dela Stik le na tiste, ki so se opredelili, dobimo Pahor 70%,
.
.
Trk 30% (zaokroeno na 1%). Predvideni red velikosti napake za 0 79 786 = 621
.
.
volivcev znaa priblino 0 04. To je ve od dejanske napake, ki znaa priblino 0 03. Pri
.
vzporednih volitvah je predvideni red velikosti napake znaal 0 0093 in je bil spet veji
.
od dejanske napake 0 0034.
Enostavno sluajno vzorenje je torej uinkovito, zahteva pa popoln pregled nad celotno
populacijo in popolno dostopnost do nje. Na voljo moramo imeti npr. register prebivalstva,
poleg tega pa tudi zagotovljen odziv. To velja tudi za sistematino vzorenje.
14
M. RAI: STATISTIKA
M. RAI: STATISTIKA
15
Primer . Straticirano vzorenje se izvede tudi pri vzporednih volitvah, in sicer v v kombinaciji s sistematinim: najprej se izbere vzorec voli, nato pa na izbranih voliih izvedejo
sistematino vzorenje.
1.4
Pri opisni statistiki se osredotoimo le na podatke, ki jih imamo (na to, kar opazimo)
in poskusimo narediti smiseln povzetek. Pri inferenni statistiki pa gledamo podatke
kot del neesa vejega, esar ne poznamo v celoti. Tipien primer je vzorec iz populacije:
vrednosti statistine spremenljivke na vzorcu poznamo, na celotni populaciji pa ne. To pa
ni edina monost. Regresijska analiza se npr. ukvarja z napovedjo dogajanja v prihodnosti
na podlagi podatkov iz preteklosti.
V splonem gre pri inferenni statistiki za to, da opazimo X, eleli pa bi povedati kaj
o Y (statistino sklepati ).6 Omenili bomo tri vrste sklepanja:
Tokasto ocenjevanje, pri katerem sestavimo algoritem, ki nam za vsako opaanje X
vrne oceno Y Y . Pri tem mora biti koliina Y opazljiva (deterministino doloena
z opaanjem X), eleli pa bi narediti im manjo napako. Koliini Y pravimo cenilka
za Y .
Primer : glede na anketo Dela Stik ocenimo, da bo na volitvah priblino 70% veljavnih glasovnic za Pahorja (oceno smo zaokroili na 1%).
Intervalsko ocenjevanje, pri katerem poskusimo Y umestiti v opazljiv interval, npr.
Ymin < Y < Ymax . Intervalu (Ymin , Ymax ) pravimo interval zaupanja. Seveda morata
biti meji intervala Ymin in Ymax opazljivi. e o Y nimamo popolne informacije, izjava
Ymin < Y < Ymax tipino ni vedno pravilna, da pa se kontrolirati verjetnost tega
statistinega sklepa. elimo dosei dvoje:
irina intervala naj bo im manja.
Verjetnost, da je res Ymin < Y < Ymax (verjetnost pokritosti), naj bo v vsakem
primeru vsaj .
.
Parametru pravimo stopnja zaupanja. Tipini stopnji zaupanja sta = 0 95 in
.
= 0 99.
Namesto stopnje zaupanja lahko povemo tudi stopnjo tveganja = 1 . Prej
.
omenjenima tipinima stopnjama zaupanja torej ustrezata stopnji tveganja = 0 05
.
in = 0 01. Stopnja tveganja torej pomeni verjetnost, da se bomo pri sklepanju
zmotili.
V teoriji X in Y predstavimo kot sluajni spremenljivki na istem verjetnostnem prostoru, ki pa nima
nujno znane verjetnostne mere. Temu pravimo statistini model. e je porazdelitev vendarle znana,
modelu pravimo bayesovski. S takimi modeli se ukvarja bayesovska statistika. Tako jo imenujemo zato,
ker temelji na Bayesovi formuli.
6
16
M. RAI: STATISTIKA
Primer : glede na anketo Dela Stik pri stopnji zaupanja 95% (oz. stopnji tveganja
.
.
5%) pred volitvami ocenimo, da bo Pahor dobil med 66 3% in 73 6% glasov.
Testi znailnosti, pri katerem o Y postavimo neko hipotezo (domnevo), npr. Y = y .
Tej hipotezi navadno pravimo nielna hipoteza in jo oznaimo s H0 . Nasprotje
nielne hipoteze je alternativna hipoteza in jo navadno oznaimo s H1 . Test za vsako
opaanje pove, ali nielno hipotezo zavrnemo in sprejmemo alternativno hipotezo
ali pa ne naredimo niesar. elimo dosei dvoje:
H0 naj se zavrne v imve primerih, ko ne velja.
Verjetnost dogodka, da nielno hipotezo zavrnemo, ko velja, naj bo v vsakem
primeru najve . Omenjenemu dogodku pravimo napaka prve vrste (napako
druge vrste bomo denirali malo kasneje).
Parametru pravimo stopnja znailnosti. e nielno hipotezo zavrnemo pri stopnji
.
znailnosti = 0 05, pravimo, da so odstopanja statistino znailna. e pa jo
.
zavrnemo pri = 0 01, pa, da so statistino zelo znailna.
Stopnja znailnosti pove, koliko smo pogumni pri zavraanju nielne hipoteze.
Pri istem opaanju bomo pri velikih nielno hipotezo zavrnili, pri majhnih pa ne.
Mejni stopnji znailnosti, ki loi zavrnitev nielne hipoteze od nezavrnitve, pravimo
p-vrednost. Ta je denirana za vsako opaanje pri doloenem testu. Povrno povedano je to maksimalna verjetnost, da bomo pri veljavnosti nielne hipoteze opazili
nekaj tako ali pa e bolj udnega kot pri aktualnem opaanju. Odstopanja so stati.
stino znailna, e je p-vrednost manja od 0 05, in zelo znailna, e je p-vrednost
.
manja od 0 01.
Primer : Loterija Slovenije trdi, da je polovica srek dobitnih. Kupimo 8 srek in
samo dve zadeneta. V tem primeru ima smisel testirati nielno hipotezo, da je
res polovica vseh srek dobitnih, proti alternativni, da je dobitnih manj kot polovica srek. p-vrednost lahko dobimo kot verjetnost, da izmed 8 srek zadeneta dve
ali manj, ob predpostavki, da je verjetnost, da je sreka dobitna, enaka 1/2. Ta
verjetnost je enaka:
1 + 81 + 82 .
.
p=
= 14 5% ,
8
2
torej odstopanja niso statistino znailna. Ne moremo torej sklepati, da Loterija
goljufa.
Primer : Testiramo nielno hipotezo, da je bilo vzorenje pri anketi Dela Stik nepristransko, proti alternativni hipotezi, da je bilo pristransko. Podobno lahko storimo
za vzporedne volitve. Vzorec iz ankete Dela Stik ima glede na dejanske rezultate
.
volitev p-vrednost 0 232. Pri Gallupovi anketi o izidu predsednikih volitev v ZDA
leta 1936 pa p-vrednost pride manj kot 10100 . Torej je tudi Gallup vzoril pristransko (statistino zelo znailno), eprav je pravilno napovedal zmagovalca. No, tudi
Gallup ni v vseh svojih raziskavah napovedal prav.
M. RAI: STATISTIKA
17
18
M. RAI: STATISTIKA
2.
Obravnava ene statistine
spremenljivke: univariatna analiza
2.1
2.1.1
Dihotomne spremenljivke
Povzemanje
moki
.
45 7%
enske
.
54 3%
19
20
M. RAI: STATISTIKA
75%
50%
25%
0%
2.1.2
enske
moki
Oceniti elimo dele enot v populaciji, ki imajo dano lastnost. Ta dele bomo oznaili s
. Na voljo pa imamo vzorec iz n enot, kjer jih ima nao lastnost natanko f .
Privzeli bomo naslednje:
Populacija je velika.
Vzorec je enostavni sluajni.
Tedaj je jasno, da populacijski dele tokasto ocenimo z vzornim deleem. Cenilka za
je torej:
f
= .
n
Primer . Za oddajo Moja Slovenija, ki je bila dne 2. marca 2013 na sporedu na RTV Slovenija, so 100 Slovencev (mokih) med 15. in 75. letom starosti povpraali, ali nameravajo
za 8. marec enski, ki jim je blizu (eni, partnerici, materi), podariti cvet. Pritrdilno
.
jim je odgovorilo 85. Torej je n = 100, f = 85 in izraunamo = f /n = 0 85 = 85%.
Na podlagi ankete torej ocenimo, da priblino 85% vseh mokih v Sloveniji med 15. in
75. letom starosti enski, ki jim je blizu, podari cvet. Bolj formalno, e je dele vseh
Slovencev med 15. in 75. letom starosti, ki namerava enski, ki jim je blizu, podariti cvet,
.
ocenimo 0 85.
e en primer : anketa Dela Stik v zvezi z drugim krogom predsednikih volitev v Sloveniji
dne 2. 12. 2012, ki je bila izvedena v dneh 27.29. 11. 2012: za Pahorja se je opredelilo
55%, za Trka 24% vpraanih, 21% pa jih je bilo neopredeljenih. Tedaj za n postavimo
tevilo opredeljenih, za f pa tevilo tistih, ki so se opredelili za Pahorja. Tonih podatkov
.
.
.
.
al ni na voljo, glede na razpololjivo pa je priblino n = (0 55 + 0 25)m = 0 79 m in
21
M. RAI: STATISTIKA
. .
f = 0 55 m, kjer je m tevilo vpraanih. Torej dele glasov na volitvah za Pahorja, ki ga
oznaimo s , ocenimo z:
.
55 . .
. f . 0 55 m
= = .
=
= 0 70 .
n
0 79 m
79
Orodja, ki so predstavljena v nadaljevanju, pa ne delujejo le za zgoraj opisano paradigmo populacija vzorec, temve tudi za neodvisne poskuse: privzamemo, da vsak poskus
uspe z verjetnostjo . Izvedemo n neodvisnih poskusov in f jih je uspelo. Poskusi torej
odgovarjajo enotam v vzorcu, nimamo pa populacije v pravem pomenu: namesto nje in
vzorenja je kar verjetnostni prostor.
Primer . Niso vsi kovanci poteni: to je odvisno tudi od naina metanja. e 50-krat
vremo kovanec in 38-krat pade grb, bomo ocenili, da na tem kovancu pri tem nainu
metanja grb pade z verjetnostjo priblino 38/50 = 76%.
Intervalsko ocenjevanje pa je nekoliko bolj zapleteno. Konstrukcij intervalov zaupanja
je celo ve in ne odgovarjajo vse glavni zahtevi po pokritosti, t. j. da je verjetnost, da je
populacijsko povpreje res v intervalu zaupanja, enaka (najmanj) stopnji zaupanja .
Veina konstrukcij temelji na Waldovem intervalu zaupanja, ta pa temelji na normalni
(Gaussovi porazdelitvi), zato potrebujemo kvantil c := z(1+)/2 normalne porazdelitve za
verjetnost (1 + )/2.1 V statistiki uporabljamo predvsem stopnji zaupanja 95% in 99%
in iskana kvantila za ti dve stopnji sta:
= 95% :
= 99% :
. .
c = z0.975 = 1 96 ,
. .
c = z0.995 = 2 58 .
Nato izraunamo:
SE =
(1
,
n
min = c SE ,
max = + c SE .
Interval zaupanja je min < < max . Koliini SE pravimo standardna napaka. Ta pove
velikostni red odstopanja vzornega delea od populacijskega.
Primer : anketa iz oddaje Moja Slovenija, kjer je 85 od 100 mokih odgovorilo, da namerava enski, ki jim je blizu, podariti cvet. e postavimo = 95%, dobimo:
r .
.
0 85 0 15 . .
.
SE =
= 0 03571 ,
100
. .
. .
. .
. .
.
.
.
.
min = 0 85 1 96 0 03571 = 0 78 , max = 0 85 + 1 96 0 03571 = 0 92 .
e je Z standardna normalna sluajna spremenljivka, je potem P(Z < c) = (1 + )/2, od koder sledi
P(c < Z < c) = , kar potrebujemo.
1
22
M. RAI: STATISTIKA
Pri stopnji zaupanja 95% torej ocenimo, da namerava med 78% in 92% mokih v dani
kategoriji enski, ki jim je blizu, podariti cvet. Spodnjo mejo smo zaokroili navzdol,
zgornjo pa navzgor.
e bi postavili = 99%, pa bi dobili:
. .
. .
.
.
min = 0 85 2 58 0 03571 = 0 75 ,
. .
. .
.
.
max = 0 85 + 2 58 0 03571 = 0 95 .
al pa Waldov interval zaupanja ne zagotavlja deklarirane verjetnosti, da je populacijski dele res notri. To se zgodi zaradi napake pri aproksimaciji z Gaussovo porazdelitvijo.
Obstaja veliko popravkov, ki so natanneji, in tudi konstrukcija, ki sicer zagotavlja deklarirano verjetnost, a je malo teje izraunljiva.2 Dober kompromis je AgrestiCoullova
konstrukcija [16]. Pri tej izraunamo:
s
c2
f+ 2
f = (1 ) , min = c SE
f , max = + c SE
f.
n
= n + c2 , =
, SE
n
Primer : spet anketa iz oddaje Moja Slovenija, kjer je 85 od 100 mokih odgovorilo, da
namerava enski, ki jim je blizu, podariti cvet. e postavimo = 95%, dobimo:
.
.
. 85 + 1 962 /2 . .
.
.
n
= 100 + 1 962 = 103 84 , =
= 0 83705 ,
.
103
84
r .
.
0 83705 0 16295 . .
.
f
= 0 03624 ,
SE =
.
103 84
. .
. .
. .
. .
.
.
.
.
min = 0 83705 1 96 0 03624 = 0 766 , max = 0 83705 + 1 96 0 03624 = 0 909 .
.
.
Pri stopnji zaupanja 95% torej zdaj ocenimo, da namerava med 76 6% in 90 9% mokih v
dani kategoriji enski, ki jim je blizu, podariti cvet. Spodnjo mejo smo zaokroili navzdol,
zgornjo pa navzgor.
e pa bi vzeli = 99%, bi dobili:
min
.
. 85 + 2 582 /2 . .
. 2 .
.
= 0 82813 ,
n
= 100 + 2 58 = 106 66 , =
.
106 66
r .
.
0 82813 0 17187 . .
.
f
SE =
= 0 03653 ,
.
106 66
. .
. .
. .
. .
.
.
.
.
= 0 82813 2 58 0 03653 = 0 733 , max = 0 82813 + 2 58 0 03653 = 0 923 .
Opomba. Vija kot je stopnja zaupanja, iri mora biti interval zaupanja: e elimo, da
bo naa napoved z vejo verjetnostjo pravilna, moramo biti bolj ohlapni. Edini interval
zaupanja s stopnjo zaupanja 100% je interval [0, 1], to pa je seveda neuporabno. Sprejeti
moramo torej kompromis med natannostjo in zanesljivostjo.
AgrestiCoullov interval zaupanja je pomaknjen
Opomba. Koliina ni isto enaka :
f manekoliko stran od kraji 0 in 1. Prav tako se modicirana standardna napaka SE
lenkost spreminja z , medtem ko je nemodicirana standardna napaka SE neodvisna od
.
2
M. RAI: STATISTIKA
23
e en primer : prej omenjena anketa Dela Stik v zvezi z drugim krogom predsednikih
volitev v Sloveniji. Toni podatki sicer niso na voljo, a v okviru danih (poleg e omenjenih
deleev potrebujemo e, da je bilo vpraanih m = 786 volivcev) bo smiselno postaviti
.
.
.
.
0 79m = 621 =: n in 0 55m = 432 =: f . Pri = 95% dobimo:
.
. 432 + 1 962 /2 . .
. 2 .
.
n
= 621 + 1 96 = 624 84 , =
= 0 69445 ,
.
624 84
r .
.
0 69445 0 30555 . .
.
f
= 0 01843 ,
SE =
.
624 84
. .
. .
. .
. .
.
.
.
.
min = 0 69445 1 96 0 01843 = 0 658 , max = 0 69445 + 1 96 0 01843 = 0 731 .
Pri = 99% pa dobimo:
min
.
. 432 + 2 582 /2 . .
. 2 .
.
= 0 69358 ,
n
= 621 + 2 58 = 627 66 , =
.
627 66
r .
.
0 69358 0 30642 . .
.
f
= 0 01840 ,
SE =
.
627 66
. .
. .
. .
. .
.
.
.
.
= 0 69358 2 58 0 01840 = 0 646 , max = 0 69358 + 2 58 0 01840 = 0 742 .
Torej bi na podlagi ankete pri stopnji zaupanja 95% napovedali, da bo za Pahorja glasovalo
.
.
.
med 65 8% in 73 1% volivcev. Pri stopnji zaupanja 99% pa bi bila ta napoved med 64 6%
.
in 74 2%.
24
M. RAI: STATISTIKA
Primer : vzporedne volitve pri drugem krogu predsednikih volitev v Sloveniji. isto toni
podatki spet niso na voljo, a vemo, da so vpraali n = 11.629 volivcev, med katerimi se jih
.
.
.
.
je 67 03% opredelilo za Pahorja in 32 97% za Trka. Postavimo 0 670311629 = 7795 =: f .
Pri = 99% dobimo:
.
. 7795 + 2 582 /2 . .
.
. 2 .
= 0 670210 ,
n
= 11629 + 2 58 = 11635 7 , =
.
11635 7
r .
.
0 670210 0 329790 . .
.
f
= 0 004358 ,
SE =
.
11635 7
. .
. .
.
.
min = 0 670210 2 58 0 004358 = 0 6589 ,
. .
. .
.
.
max = 0 670210 + 2 58 0 004358 = 0 6815 .
Na podlagi vzporednih volitev bi torej pri stopnji zaupanja 99% napovedali, da bo za
.
.
Pahorja glasovalo med 65 89% in 68 15% volivcev.
.
V resnici je na volitvah za Pahorja glasovalo 67 37% volivcev, kar je v vseh intervalih
zaupanja, ki smo jih obravnavali.
Omenili smo e teave pri doseganju verjetnosti pokritosti in e, da se ta hitreje blia
, e gledamo povpreje, ko pretee doloen interval. e torej naredimo veliko raznolikih
poskusov in pri vsakem doloimo interval zaupanja, bo dele poskusov, pri katerih bo
res v intervalu zaupanja, enak priblino . Vasih pa smo bolj previdni in elimo imeti
eleno verjetnost pokritosti doseeno tudi za manj raznolike poskuse. V tem primeru
interval zaupanja na vsaki strani razirimo za 1/(2n), torej doloimo:
f 1 ,
min = p c SE
2n
f+ 1 .
max = p + c SE
2n
Temu pravimo popravek za zveznost. e ga uporabimo, v povpreju dobimo vejo verjetnost pokritosti kot deklarirano . Za tak interval zaupanja pravimo, da je konservativen.
Primer : pri anketi oddaje Moja Slovenija je 95%-interval zaupanja za dele mokih, ki
.
.
nameravajo enski, ki jim je blizu, za 8. marec podariti cvet, priel od 0 766 do 0 909. e
dodamo e popravek za zveznost, interval na vsaki strani razirimo za 1/200 in dobimo
.
.
interval od 0 761 do 0 914.
e en primer : pri vzporednih volitvah je bilo anketiranih 11.629 volivcev. Interval zau.
.
panja se na vsaki strani raziri za 1/23258 < 0 00005 = 0 005%, kar je zanemarljivo.
2.1.3
Testiranje delea
Tako kot v prejnjem razdelku naj bo tudi tu dele enot v populaciji z doloeno lastnostjo. Privzamemo, da je populacija velika, in iz nje vzamemo enostavni sluajni vzorec,
za katerega pa je tudi dobro, da je dovolj velik test, ki ga bomo obravnavali, je namre
le priblien. Za minimalno razumno natannost moramo privzeti, da je tako n 5 kot
tudi n(1 ) 5.
25
M. RAI: STATISTIKA
et
2 /2
dt ,
. .
z0.975 = 1 96 ,
. .
z0.99 = 2 33 ,
. .
z0.995 = 2 58
(zaradi narave stvari, ki jih raunamo, so vsi zaokroeni navzgor). Kdaj zavrnemo nielno
hipotezo, je spet odvisno od razliice testa:
Dvostranski test:
|Z| > z1/2 .
Enostranski test v desno: Z > z1 .
Enostranski test v levo:
Z < z1 .
Mnoici Z-vrednosti, kjer nielno hipotezo zavrnemo, imenujemo kritino obmoje. Odvisna je od stopnje znailnosti in razliice testa (enostranski, dvostranski).
Na zgornji postopek sklepanja bomo naleteli e vekrat in mu pravimo Z-test (ima dvostransko razliico ter enostranski razliici v levo in v desno). Spreminja se lahko testna
statistika Z, kritine vrednosti z0.95 , z0.975 , z0.99 in z0.995 pa so ksne. Z-test ustreza deklarirani stopnji znailnosti, e ima testna statistika Z standardno normalno porazdelitev. V
primeru testa delea to velja le priblino, zato privzetek, da je n min{ , 1 } 5. Za
ilustracijo prikaimo primerjavo med dejansko porazdelitvijo testne statistike Z (stolpni
.
histogram) in standardno normalno porazdelitvijo (krivulja) pri n = 100 in = 0 6:
26
M. RAI: STATISTIKA
Ilustracija p-vrednosti pri isti opaeni testni statistiki Z za razline razliice Z-testa
p-vrednost je ploina osenenega dela:
Dvostranski test
(alternativna hipoteza je H1 ):
Z
.
Ilustracija kritinega obmoja za = 0 05:
27
M. RAI: STATISTIKA
95%
5%
95%
Enostranski test v levo
(alternativna hipoteza je H1 ):
5%
z0.95
95%
Dvostranski test
(alternativna hipoteza je H1 ):
.
2 5%
z0.975
.
2 5%
z0.975
.
Enostranski test v levo (H1 ):
Z=
SE
1
| | 2n
.
Dvostranski test (H1 ):
Z=
SE
28
M. RAI: STATISTIKA
Primer . Recimo spet, da Loterija trdi, da je polovica srek dobitnih. Kupimo doloeno
tevilo srek, med katerimi je spet doloeno tevilo dobitnih. Ali lahko trdimo, da Loterija
lae? V skladu s trditvijo Loterije bomo postavili = 1/2, za alternativno hipotezo pa
bomo postavili, da je < 1/2, kjer je verjetnost, da je posamezna sreka dobitna:
primer, ko je ta verjetnost veja od 1/2, nas ne skrbi, zato ga v alternativno hipotezo ne
vkljuimo (izpeljava pokae, da dobimo isti kriterij odloanja tudi, e za nielno hipotezo
postavimo ). Izvedemo torej enostranski test v levo.
Denimo, da smo kupili 100 srek in je dobitnih le 41. Izraunamo:
r .
.
.
.
0 41 0 5
0505
.
.
SE =
= 0 05 , Z =
= 1 8 ,
.
100
0 05
.
.
.
.
od koder sledi p = 21 + (1 8) = 0 036. Nielno hipotezo torej pri = 0 05 zavrnemo,
.
.
pri = 0 01 pa tega ne moremo storiti. Z drugimi besedami, velja Z < 1 65, toda
.
Z > 2 33, zato so odstopanja statistino znailna, niso pa statistino zelo znailna. e
drugae povedano, e smo pripravljeni sprejeti 5-odstotno tveganje, da Loterijo obtoimo
po krivici, bomo rekli, da Loterija lae, e pa smo pripravljeni sprejeti le 1-odstotno
tveganje, bomo molali.
.
.
1
0 41 0 5 + 200
.
e bi dodali popravek za zveznost, bi dobili Z =
= 1 7 in statistino
.
0 05
.
.
sklepanje bi tako pri = 0 05 kot pri = 0 01 ostalo enako.
M. RAI: STATISTIKA
29
Primer . Kdaj lahko na podlagi doloenega tevila metov kovanca trdimo, da ni poten?
Tu spet postavimo = 1/2, toda zdaj moramo biti obutljivi na obe strani: za alternativno hipotezo postavimo 6= 1/2. Recimo, da 100-krat vremo kovanec in 41-krat pade
.
.
grb. Tedaj je e vedno Z = 1 8 (e delamo s popravkom za zveznost, pa pride Z = 1 7),
. . .
toda p-vrednost je zdaj enaka 1 2(1 8) = 0 072 (ravno dvakratnik prejnje, to pa je
.
zato, ker smo obutljivi na dve strani). Z drugimi besedami, velja |Z| < 1 96. To pomeni,
da odstopanja niso statistino znailna.
.
.
e pa bi kovanec vrgli
1000-krat in bi 410-krat padel grb, bi bilo SE = 0 05/ 10 =
. .
.
.
0 0158 in Z = 1 8 10 = 5 59. V tem primeru bi bila odstopanja zalo znailna. Iz
.
.
tabele se da razbrati, da pride p-vrednost manj kot 0 00005 (v resnici pride 6 3 109 ).
Primer : Gallupova napoved volilnega izida predsednikih volitev v ZDA leta 1936. V
.
skladu z uradnim izidom postavimo = 0 38 (gledamo dele tistih, ki so glasovali za
.
Landona) in v skladu z Gallupovo napovedjo postavimo = 0 44. Izvedemo dvostranski
test. Spomnimo se, da je Gallup povpraal n = 50.000 volivcev. Izraunamo:
r .
.
.
.
0 38 0 62 . .
0 44 0 38 .
.
SE =
= 0 00217 , Z =
= 27 64 ,
.
50000
0 00217
.
Pogled v tabelo pove, da je p-vrednost manja od 0 00005 (v resnici je celo manja od
10100 ). Odstopanja so torej statistino ve kot zelo znailna, torej lahko tudi za Gallupa
reemo, da je bil njegov vzorec pristranski. Tudi Gallupov intitut ni pravilno napovedal
izidov vseh predsednikih volitev v ZDA.
Za smo tu vzeli dele tistih, ki so glasovali za Landona. Enako bi dobili, tudi e bi
gledali dele tistih, ki so glasovali za Roosevelta.
Primer : Gallupova napoved izida ankete revije Literary Digest. V skladu z izidom an.
kete postavimo = 0 571. Za Gallupovo napoved 56% avtor al ni nael natannejih
.
.
podatkov, torej vemo le, da je bil Gallupov dele za Landona med 55 5% in 56 5%. Izvedemo dvostranski test, pri emer se spomnimo, da je Gallup povpraal n = 3.000 volivcev.
Najprej velja:
r .
.
0 571 0 429 . .
SE =
= 0 009036 .
3000
. .
Nadalje za = 0 555 dobimo:
.
.
. 0 555 0 571 .
. .
.
= 1 77 , p = 0 077 ,
Z=
.
0 00936
. .
za = 0 565 dobimo:
.
.
. .
. 0 555 0 571 .
.
= 0 66 , p = 0 51 .
Z=
.
0 00936
Vidimo, da v okviru razpololjivih podatkov p-vrednost mono variira, vendar odstopanja
v nebenem primeru niso statistino znailna.
30
M. RAI: STATISTIKA
2.2
Imenske spremenljivke
2.2.1
Frekvenna porazdelitev
i = 1, 2, . . . , k .
Velja e:
fi
, f1 + f2 + + fk = 1 .
n
Frekvenno porazdelitev imenskih spremenljivk grano predstavimo s tortnim diagramom (angl. pie chart ali circle graph) ali s histogramom.
f1 + f2 + + fk = n ,
fi =
e se nai podatki nanaajo na enostavni sluajni vzorec iz neke populacije, so relativne frekvence tudi tokaste ocene populacijskih deleev. e so torej 1 , 2 , . . . , k delei
enot, na katerih ima spremenljivka vrednost a1 , a2 , . . . , ak , so njihove ocene kar i = fi .
Modus je vrednost z najvijo frekvenco. Oznaevali ga bomo z M , pogosta oznaka pa
je tudi Mo ali Mo. Modusov je lahko ve.
Modus je ena od mer centralne tendence.
Primer : 32 ljudi so vpraali, kaj v ivljenju jim najve pomeni.3 Moni odgovori so bili:
(D)
(F)
(Z)
(H)
(U)
31
M. RAI: STATISTIKA
F, D, D, U, Z, D, D, D, U, D, D, D, H, D, D, D, F, F, D, U, D, D, H, H, D, D, D, D, D, D, U, Z.
Frekvenna porazdelitev:
vrednosti
frekvence
Druina, otroci, stari
20
Denar, nanna samostojnost
3
Zabava, sprostitev
2
Hia, avto, dobre obleke
3
Ugled, spotovanje
4
relativne frekvence
.
.
0 625 = 62 5%
.
.
0 094 = 9 4%
.
.
0 063 = 6 3%
.
.
0 094 = 9 4%
.
.
0 125 = 12 5%
25
20
15
Zabava, sprostitev
10
5
0
Ugled, spotovanje
32
M. RAI: STATISTIKA
10
10
20
30
40
50
60
70
80
90
100
Najbolj grobo
je korensko pravilo, po katerem se naredi priblino n razredov po
priblino n enot. Izkae se, da pride pri velikih statistinih mnoicah histogram
preve naagan delitev je prena.
e elimo manj naagan histogram, uporabimo pravilo tretjega korena, po katerem
se naredi priblino n1/3 razredov po priblino n2/3 enot. Pri tem pravilu pride
histogram priblino enako naagan ne glede na tevilo enot.
Za vije merske lestvice obstajajo e bolj sosticirana pravila glej razdelek o intervalskih spremenljivkah.
Primer : razdelimo vrazrede podatke iz prejnjega primera. e uporabimo korensko
.
.
pravilo, izraunamo 131 = 11 44. e malo zaokroimo in razdelimo podatke na 10
razredov v razponu po 10 tok. Dobimo:
25
20
15
10
09
1019
2029
3039
4049
5059
6069
7079
8089
90100
33
M. RAI: STATISTIKA
Slika je mnogo bolja. Namesto modusa ima pomen modalni razred od 50 do 59 tok.
.
Oglejmo si e, kaj dobimo, e uporabimo pravilo tretjega korena. Izraunamo 1311/3 =
5 08 in se odloimo, da podatke razdelimo v 5 razredov v razponu po 20 tok. Dobimo:
.
50
40
30
20
10
019
2039
4059
6079
80100
Histogram ima pravilnejo obliko, a je tudi bolj grob in morda skrije kakno podrobnost.
2.2.2
Recimo, da se podatki, ki smo jih dobili, nanaajo na enostavni sluajni vzorec iz neke
populacije ali pa tudi na vrednosti doloene spremenljivke v zaporedju neodvisnih poskusov (npr. tevilo pik pri metu kocke). e so fi relativne frekvence na vzorcu, i pa
na populaciji (ali pa verjetnosti posameznih vrednosti v posameznem poskusu), slednje
ocenimo tako kot pri dihotomnih spremenljivkah:
fi
i = fi = .
n
.
Tako npr. na podlagi ankete iz prejnjega primera ocenimo, da priblino 62 5% najve
pomeni druina.
Tako kot pri dihotomnih spremenljivkah se da konstruirati tudi intervale zaupanja,
vendar v tem primeru verjetnost pokritosti velja le za posamezno vrednost, ne pa za vse
hkrati. Da se sicer konstruirati sploneje mnoice zaupanja, katerih elementi so vektorji
deleev (torej porazdelitve na populaciji) in s tem dosei pravo verjetnost pokritosti,
vendar se tu s tem ne bomo ukvarjali.
Da pa se testirati nielno hipotezo o doloeni porazdelitvi na populaciji. To storimo s
Pearsonovim testom skladnosti. e nielna hipoteza trdi, da je 1 = 1 , 2 = 2 , . . . , k =
k , alternativna hipoteza pa trdi, da temu ni tako, izraunamo testno statistiko hi kvadrat
(angl. chi-squared ):
k
k
X
X
(fi ni )2
(i i )2
2
=
=
n
ni
i
i=1
i=1
34
M. RAI: STATISTIKA
V primeru, ko imamo le dve moni vrednosti (t. j. dihotomno spremenljivko), je Pearsonov test skladnosti ekvivalenten dvostranskemu Z-testu delea (e hipotezo zavrnemo
pri enem testu, jo zavrnemo tudi pri drugem).
Podobno kot Z-test delea je tudi Pearsonov test skladnost zgolj priblien, kar pomeni,
da deklarirana stopnja znailnosti ne sovpada isto z verjetnostjo napake prve vrste. Velja,
da je test za nae potrebe dovolj natanen, e je:
populacija velika;
ni 5 za vse i. Sicer moramo zdruiti blinje vrednosti.
Primer : predasne volitve v Sloveniji dne 4. 12. 2011. Agencija Mediana je izvedla vzporedne volitve, na katerih je povpraala n = 16.200 volivcev. Rezultati ankete skupaj z
uradnimi rezultati volitev so prikazani spodaj.
Stranka
Vzporedne volitve Uradni rezultat
.
.
Lista Zorana Jankovica Pozitivna Slovenija
29 08%
28 51%
.
.
Slovenska demokratska stranka
26 54%
26 19%
.
.
Socialni demokrati
10 79%
10 52%
.
.
Lista Gregorja Viranta
8 66%
8 37%
.
.
Demokratina stranka upokojencev Slovenije
6 70%
6 97%
.
.
Slovenska ljudska stranka
6 38%
6 83%
.
.
Nova Slovenija
4 70%
4 88%
.
.
Drugi
7 15%
7 73%
Na Medianini spletni strani5 pie, da je bila njihova napoved NATANNA. Ujemanje
je res precejnje, a tudi tevilo vpraanih volivcev je bilo veliko. Je napoved res natanna
v smislu inferenne statistike? Izraunajmo:
.
.
.
.
.
.
(0 2908 0 2851)2 (0 2654 0 2619)2 (0 1079 0 1052)2
2
= 16200
+
+
+
.
.
.
0 2851
0 2619
0 1052
.
.
.
.
.
.
(0 0866 0 0837)2 (0 0670 0 0697)2 (0 0638 0 0683)2
+
+
+
+
.
.
.
0 0837
0 0697
0 0683
.
.
.
.
(0 0470 0 0488)2 (0 0715 0 0773)2 .
+
+
=
.
.
0 0488
0 0773
.
.
= 19 98 .
Ker je 8 skupin, imamo df = 7 prostostnih stopenj. Kvantil porazdelitve hi kvadrat
.
.
.
za verjetnost 0 99 je 20.99 (7) = 18 5. To pomeni, da hipotezo, da je Medianin vzorec
5
35
M. RAI: STATISTIKA
.
nepristranski, zavrnemo tudi pri stopnji znailnosti = 0 01: odstopanja so zelo znailna.
Mediana se torej v tem primeru ne bi smela preve hvaliti z natannostjo.
2.3
Urejenostne spremenljivke
2.3.1
R(4) = 2 ,
R(15) = 3 ,
R(42) = 4 ,
R(63) = 5 ,
R(75) = 6 .
36
M. RAI: STATISTIKA
Vsem monim rangom vrednosti x pravimo surovi rangi. Spodnji rang je najniji,
zgornji rang pa najviji moni surovi rang. Velja:
spodnji rang = (X < x) + 1 ,
zgornji rang = (X x) .
Spodnji in zgornji rang lahko deniramo za poljubno, ne le zavzeto vrednost. Vezani
rang je aritmetina sredina spodnjega in zgornjega ranga in oznaka R(x) bo zadevala to
tevilo:
spodnji rang + zgornji rang
(X < x) + (X x) + 1
=
.
2
2
.
Tako je v zgornjem primeru R(A) = 1, R(B) = 3 5, R(C) = 6, R(D) = 8 in R(E) = 10.
e bi namesto A, . . . , E imeli tevila, npr.:
R(x) =
1
2
Ambro
Bla
Cvetka
Darja
Emil
83
22
61
45
49
Florjan
Gal
Helena
Iva
Jana
Karmen
Lev
Mojca
84
86
71
67
67
88
89
64
in se vpraajmo, kdo je glede na svoje kolege pisal bolje: Cvetka ali Gal?
.
.
Cvetka ima rang 4 in relativni rang 3 5/5 = 0 7, Gal pa ima rang 6 in relativni rang
.
.
5 5/8 = 0 6875, kar je skoraj enako.
37
M. RAI: STATISTIKA
2.3.2
Kumulativne frekvence
Fi =
Fi
= f1 + f2 + + fi .
n
f1
f2
f3
..
.
ak
fk
kumulativne
frekvence
F0 = 0
F 1 = f1
F 2 = F 1 + f2
F 3 = F 2 + f3
..
.
f1
f2
f3
..
.
fk
relativne
kumulativne
frekvence
F0 = 0
F1 = f1
F2 = F1 + f2
F3 = F2 + f3
..
.
Fk = Fk1 + fk = n Fk = Fk1
+ fk = 1
fi
25
13
12
7
3
4
Fi
25
38
50
57
60
64
f
.i
0 391
.
0 203
.
0 188
.
0 109
.
0 047
.
0 063
F
. i
0 391
.
0 594
.
0 781
.
0 891
.
0 938
1
e je 1 + Fj1 i Fj .
Pri doloanju i-te vrstilne statistike moramo torej pogledati prvo kumulativno frekvenco,
ki je enaka vsaj i.
Nekaj vrstilnih karakteristik iz prejnjega primera: x(40) = 7, x(60) = 9, x(61) = 10.
Iz kumulativnih frekvenc lahko oditamo tudi range: vrednost aj ima surove range od
1 + Fj1 do Fj in vezani rang:
R(aj ) =
Fj1 + Fj + 1
.
2
38
M. RAI: STATISTIKA
Fj1
+ Fj
Fj1 + Fj
=
.
2n
2
Poleg tega za a < a1 velja r (a) = 0, za a > ak velja r (a) = 1, za aj1 < a < aj pa je
r (a) = Fj1
.
Relativni rangi ocen pri prejnjem primeru:
. .
r (neg.) = 0 195 ,
. .
r (8) = 0 844 ,
. .
r (6) = 0 492 ,
. .
r (9) = 0 914 ,
. .
r (7) = 0 688 ,
. .
r (10) = 0 969 .
Tako kot pri imenskih spremenljivkah lahko tudi tu porazdelitev prikaemo grano.
Tortni grakon je za urejenostne spremenljivke manj primeren, saj se iz njega ne vidi
urejenost. Primerna pa sta histogram in rtni grakon (angl. line chart, line graph). Prikaemo lahko razredne in kumulativne frekvence (absolutne ali relativne). Kadar kumulativne frekvence prikazujemo s rtnim grakonom, vozle postavimo vmes med vrednosti.
Takemu rtnemu grakonu pravimo pravimo ogiva, tudi oiva (angl., fr. ogive, v prvotnem pomenu gotski lok). e so vozli tono na sredini med vrednostmi in so prikazane
relativne frekvence, viina rte nad posamezno vrednostjo ustreza relativnemu rangu.
Histogram iz razrednih relativnih frekvenc in ogiva pri prejnjem primeru:
1
0.75
0.5
0.25
0
neg.
10
39
M. RAI: STATISTIKA
2.3.3
Kvantili
in
(X q )
.
n
.
(X q0.49 ) 4 9 .
(X q0.5 ) 5 .
(X q0.1 ) 1 .
40
M. RAI: STATISTIKA
Kvantil za dele 1 je katero koli tevilo iz [x(n) , ).
e je 0 < < 1 in je n celo tevilo, je kvantil za dele katero koli tevilo iz
intervala [x(n) , x(n+1) ]. Dobljeni kvantilni interval bomo pisali tudi kot [q , q+ ],
krajii pa imenovali spodnji in zgornji kvantil.
e je 0 < < 1 in n ni celo tevilo, je kvantil za dele enolino doloen, in sicer
je enak x(n) (oznaka h tukaj pomeni h, zaokroen navzgor). V tem primeru
bomo postavili q = q+ = q .
Pomembni kvantili:
Kvantilu za dele 1/2 pravimo mediana in jo bomo oznaevali z m. Pogosta oznaka
je tudi Me ali Me. Mediani pravimo tudi srednja vrednost in je mera centralne
tendence. Pri dihotomnih spremenljivkah je mediana enaka modusu.
Kvantila za delea 1/3 in 2/3 sta prvi in drugi tercil.
Kvantili za delee 1/4, 1/2 in 3/4 so kvartili. Drugi kvartil je torej mediana.
. .
.
Kvantilom za delee 0 1, 0 2, . . . , 0 9 pravimo decili.
.
.
.
Kvantilom za delee 0 01, 0 02, . . . , 0 99 pravimo centili ali tudi percentili. 1., 5., 95.
in 99. percentil so pomembni v inferenni statistiki, ker na njih temeljijo dogovorjeni
pojmi. Pomembni so tudi q0.005 , q0.025 , q0.975 in q0.995 .
Kvantili so tevilske karakteristike. tevilska karakteristika je tudi modus. Kasneje, pri
intervalskih spremenljivkah, bomo spoznali e ve tevilskih karakteristik.
Primer : pri ranirni vrsti:
10, 10, 20, 30, 50, 80, 130, 210, 340, 550
je mediana kar koli iz [x(5) , x(6) ] = [50, 80] (kar smo e ugotovili), tretji kvartil pa je
x(8) = 210.
.
.
Vrednost 20 ima kvantilni rang 0 25 in je zato tudi kvantil za dele 0 25; kvantil za
.
ta dele je enolino doloen. Prav tako pa je enolino doloen tudi kvantil za dele 0 26,
.
prav tako je enak 20, vendar 0 26 ni kvantilni rang vrednosti 20.
Pri sodem tevilu podatkov mediana tipino ni natanno doloena:
41
M. RAI: STATISTIKA
Primer : pri ocenah s kolokvijev so vsi kvartili natanno doloeni. Prvi kvartil je sicer
res na intervalu [x(16) , x(17) ], mediana na [x(32) , x(33) ] in tretji kvartil [x(48) , x(49) ], toda
x(16) = x(17) = neg., x(32) = x(33) = 6 in x(48) = x(49) = 7, zato lahko zapiemo q1/4 = neg.,
m = 6 in q3/4 = 7.
Vrstilne karakteristike lahko grano predstavimo s katlo z brki (angl. box plot).
Navadno nariemo minimalno vrednost, kvartile in maksimalno vrednost, lahko pa tudi
kakne druge karakteristike.
Primer : rezultati kolokvijev iz matematike na univerzitetnem tudiju gozdarstva na
UL BTF v tudijskem letu 2004/05 (prikazani so minimalna vrednost, kvartili in maksimalna vrednost):
1. kolokvij: 9, 11, 12, 14, 17, 17, 24, 24, 26, 30, 34, 35, 36, 37, 42, 42, 44, 45, 49, 50, 51, 54, 57, 62, 63, 65, 65, 68, 69
2. kolokvij: 19, 19, 20, 24, 27, 27, 36, 45, 47, 47, 48, 48, 49, 57, 57, 60, 61, 63, 64, 65, 69
3. kolokvij: 32, 32, 39, 42, 43, 47, 49, 50, 50, 53, 53, 56, 60, 62, 68, 68, 69, 69
72
54
36
18
1. kolokvij
2. kolokvij
3. kolokvij
42
M. RAI: STATISTIKA
2.3.4
Denimo zdaj, da se podatki, ki smo jih dobili, nanaajo na enostavni sluajni vzorec iz
velike populacije. eleli bi oceniti vse statistike, ki smo jih obravnavali do sedaj in ki so
stabilne, ko se populacija vea: populacijske relativne range, relativne kumulativne frekvence in kvantile. Vrednosti teh statistik na vzorcu bomo oznaevali kot doslej, vrednosti
na populaciji pa takole:
relativni rang, ki pripada vrednosti x, z (x);
relativno kumulativno frekvenco, ki pripada vrednosti ai , s i ;
kvantil za dele Q s Q (kateri koli kvantil za ta dele, a e je populacija velika, so
kvantili navadno zelo natanno doloeni).
Pri prvih dveh statistikah vrednosti na populaciji preprosto ocenimo z vrednostmi na
vzorcu:
i = Fi .
(x) = r (x) ,
Za ocenjevanje kvantilov pa obstaja presenetljivo veliko razliic in vsaka ima svoje prednosti in slabosti. Omejili se bomo na intervalske spremenljivke, katerih vrednosti na
populaciji so ustrezno razprene (natanneje, pomembno je, da so zagotovljene vrednosti
na dovolj majhnih intervalih, od koder sledi tudi, da so kvantili zelo natanno doloeni).
Kvantil za dele bomo tukaj ocenili na naslednji nain, ki ga uporablja tudi excel:
Izraunamo h = (n 1) + 1.
Naj bo k celi del tevila h.
= x(k) + (h k)(x(k+1) x(k) ).
Cenilka za Q je Q
Tokasta ocena za mediano po zgornji metodi je natanno 21 (m + m+ ), torej sredina
medianskega intervala.
Primer : vzemimo ranirno vrsto iz vzorca velikosti 11:
6, 7, 10, 10, 11, 11, 12, 12, 12, 16, 17.
.
Oglejmo si npr. 17. percentil. Vrednost na vzorcu je enolino doloena: iz 11 0 17 = 2
.
dobimo q0.17 = x(2) = 7. Za oceno populacijskega prvega kvartila pa dobimo h = 2 7,
. = x(2) + 0.7 (x(3) x(2) ) = 9.1. Na spodnjem grafu je s sivo prikazana
k = 2 in Q
0 17
vzorna kvantilna funkcija, s rno pa ocena populacijske kvantilne funkcije:
43
M. RAI: STATISTIKA
x
17
16
15
14
13
12
11
10
9
8
7
6
1
11
2.3.5
2
11
3
11
4
11
5
11
6
11
7
11
8
11
9
11
10
11
i = Fi + 2 ,
f = i (1 i ) ,
i c SE
f , i,max =
i + c SE
f,
SE
i,min =
n
r
2
R(x) + c 21
f = (x)(1 (x)) ,
(x) =
,
SE
n
f
f,
min (x) = (x) c SE , max (x) = (x) + c SE
44
M. RAI: STATISTIKA
fi
25
13
12
7
3
4
Fi
25
38
50
57
60
64
f
.i
0 391
.
0 203
.
0 188
.
0 109
.
0 047
.
0 063
F
. i
0 391
.
0 594
.
0 781
.
0 891
.
0 938
1
. .
Ocena 7 ima vzorno relativno kumulativno frekvenco F3 = 0 781 in vzorni relativni
. .
.
.
rang r (7) = (0 594 + 0 781)/2 = 0 688. Recimo sedaj, da bi bil to vzorec univerzitetnih
tudentov matematike, ki so kdaj koli pisali kolokvije iz verjetnosti in statistike (eprav
vzorec tudentov, ki so pisali v doloenem letu, nikakor ni reprezentativen). Doloimo
95% interval zaupanja za 3 in (7) za primer, ko bi bil to enostavni sluajni vzorec iz
. .
velike populacije. Najprej se spomnimo, da je c = z0.975 = 1 96 in izraunajmo n
=
.
.
n + c2 = 67 84. Interval zaupanja za relativno kumulativno frekvenco:
r .
. 2
.
50
+
1
96
/2
0 76532 0 23468 . .
.
.
.
f
3 =
= 0 76532 ,
SE =
= 0 05145 ,
.
.
67 84
67 84
. .
. .
.
.
.
.
.
.
3,min = 0 76532 1 96 0 05145 = 0 664 , 3,max = 0 76532 + 1 96 0 05145 = 0 867 .
Interval zaupanja za relativni rang:
R(7) =
.
.
. 44 5 + (1 962 1)/2 . .
= 0 67688 ,
(7) =
.
67 84
.
.
. .
f = 0 67688 . 0 32312 =
SE
0 05678 ,
67 84
. .
.
.
.
min (7) = 0 67688 1 96 0 05678 = 0 565 ,
. .
.
.
.
max (7) = 0 67688 + 1 96 0 05678 = 0 789 .
38 + 50
.
= 44 5 ,
2
r
45
M. RAI: STATISTIKA
Velja:
min
. .
c = 1 96 ,
SE =
. .
.
.
.
= 0 6 1 96 0 15492 = 0 296 ,
r .
.
0604 . .
= 0 15492 ,
10
. .
.
.
.
max = 0 6 + 1 96 0 15492 = 0 904 ,
torej je:
0.6,min = q0.296
Q
= x(3) = 20 ,
2.3.6
+
0.6,max = q0.904
Q
= x(10) = 550 .
Testiranje karakteristik
Podobno kot pri intervalih zaupanja relativne frekvence in relativne range tudi testiramo
kot delee z Z-testom. e testiramo nielno hipotezo, da je i = i , izraunamo:
r
i (1 i )
F i
,
Z= i
.
SE =
n
SE
e testiramo nielno hipotezo, da je (x) = (x), izraunamo:
s
(x) 1 (x)
r (x) (x)
SE =
,
Z=
.
n
SE
Nato testiramo tako, kot smo testirali dele .
Primer : e imamo dan vzorec rezultatov:
ocena
neg.
6
7
8
9
10
fi
25
13
12
7
3
4
Fi
25
38
50
57
60
64
f
.i
0 391
.
0 203
.
0 188
.
0 109
.
0 047
.
0 063
F
. i
0 391
.
0 594
.
0 781 ,
.
0 891
.
0 938
1
46
M. RAI: STATISTIKA
(XQ )
n
(X<Q )
n
+
> + c SE ali, ekvivalentno, e je q+cSE
< Q .
(XQ )
hipotezo zavrnemo, e je
> + c SE ali
< c SE. To je
n
n
+
ekvivalentno dejstvu, da je qcSE
> Q ali pa q+cSE
< Q .
.
Primer : Pri prej omenjenih rezultatih kolokvijev pri stopnji znailnosti = 0 01 testiramo hipotezo, da je mediana na populacijipenaka 8, proti alternativni hipotezi, da je
. .
.
.
.
manja od 8. Velja c = z0.99 = 2 33 in SE = 0 5 0 5/64 = 0 0625. Nadalje je:
(X < 8) . .
. .
.
.
.
= 0 781 > 0 5 + 2 33 0 0625 = 0 646 ,
64
zato nielno hipotezo zavrnemo. Odstopanja so torej statistino zelo znailna. To se vidi
+
tudi iz dejstva, da je q0.646
= 7 < 8.
2.3.7
Naj bosta na vsaki enoti populacije denirani dve urejenostni spremenljivki: X in Y . Pri
tem je populacija lahko heterogena, torej lahko sestoji iz ve podpopulacij. Testiramo
nielno hipotezo, da sta X in Y na vsaki podpopulaciji enako porazdeljeni.
Za formulacijo alternativne hipoteze pa moramo razumeti stohastino primerjavo porazdelitev. Ideja je, da je X stohastino veja od Y , e obstaja dejavnik, ki vea X na
raun Y , ne obstaja pa dejavnik, ki deluje obratno. Podobno je X stohastino manja
od Y , e obstaja dejavnik, ki manja X na raun Y , ne obstaja pa dejavnik, ki deluje
obratno. Mono je primerjati tudi porazdelitvi dveh spremenljivk na dveh razlinih statistinih mnoicah.
Bolj formalno, X je stohastino veja od Y , e je za vsako ksno vrednost u dele enot,
za katere je X u, veji ali enak deleu enot, za katere je Y u. Dele vselej gledamo v
okviru statistine mnoice, na kateri je denirana posamezna spremenljivka. Nadalje je
X stohastino strogo veja od Y , e je stohastino veja in e obstaja tudi tak u, da je
dele enot, za katere je X u, strogo veji od delea enot, za katere je Y u. Sluajna
spremenljivka X je stohastino (strogo) manja od Y , e je Y stohastino (strogo) manja
od X.
Primer : podatki, kjer je X stohastino strogo veja od Y .
47
M. RAI: STATISTIKA
b
X
Y
Primer : podatki, kjer niti X ni niti stohastino veja niti stohastino manja od Y .
b
X
Y
.
.
Dele enot, kjer je X a, 0 6, je strogo manji od delea enot, kjer je Y a, 0 7.
.
.
Dele enot, kjer je X b, 0 2, je strogo veji od delea enot, kjer je Y b, 0 1.
Opomba. Pri stohastini primerjavi porazdelitev tevilo enot v populacijah ni toliko pomembno: kot smo videli v prejnjih dveh primerih, je lahko tevilo enot, kjer je denirana
prva spremenljivka, razlino od tevila enot, kjer je denirana druga spremenljivka. Prva
spremenljivka je lahko celo denirana na isto drugih enotah kot druga. Res pa je, da v
tem razdelku obravnavamo primer, ko sta spremenljivki denirani na istih enotah, torej
sta tudi tevili enot isti.
Loili bomo tri alternativne hipoteze:
Enostranska v korist X trdi, da je X na vseh delih populacije stohastino veja od
Y in na vsaj enem delu populacije stohastino strogo veja od Y .
Enostranska v korist Y trdi, da je X na vseh delih populacije stohastino manja
od Y in na vsaj enem delu populacije stohastino strogo manja od Y .
Dvostranska trdi, da velja ena od prej omenjenih enostranskih hipotez.
Test z znaki je v resnici test delea enot, na katerih je X < Y , med enotami, na katerih
je X 6= Y . Za dovolj velike vzorce ga lahko izvedemo kot Z-test: naj bo S+ tevilo enot,
za katere je X > Y , S pa tevilo enot, za katere je X < Y . Testna statistika je:
S+ S
Z :=
.
S+ + S
Pri enostranski alternativni hipotezi v korist spremenljivke X izvedemo enostransko
razliico testa v desno: H0 zavrnemo, e je Z > z1 .
Pri enostranski alternativni hipotezi v korist spremenljivke Y izvedemo enostransko
razliico testa v levo: H0 zavrnemo, e je Z < z1 .
Pri dvostranski alternativni hipotezi izvedemo dvostransko razliico testa: H0 zavrnemo, e je |Z| > z1/2 .
Primer : 50 ljudi so pred ogledom in po ogledu lma povpraali, kako se poutijo: zelo
slabo, slabo, srednje, dobro ali zelo dobro. Rezultati so naslednji:6
6
48
M. RAI: STATISTIKA
pred
srednje
dobro
srednje
dobro
srednje
dobro
srednje
dobro
dobro
zelo dobro
dobro
zelo dobro
dobro
zelo dobro
srednje
srednje
dobro
srednje
dobro
zelo dobro
zelo dobro
zelo dobro
slabo
dobro
srednje
po
srednje
zelo dobro
zelo dobro
srednje
zelo dobro
dobro
dobro
dobro
zelo dobro
zelo dobro
zelo dobro
dobro
srednje
srednje
dobro
dobro
zelo dobro
dobro
zelo dobro
dobro
zelo dobro
dobro
dobro
srednje
zelo dobro
pred
dobro
dobro
zelo dobro
dobro
srednje
srednje
zelo dobro
dobro
dobro
srednje
slabo
srednje
zelo slabo
slabo
slabo
slabo
zelo slabo
srednje
srednje
zelo slabo
srednje
slabo
slabo
slabo
zelo slabo
po
zelo dobro
dobro
zelo dobro
dobro
zelo slabo
zelo dobro
srednje
dobro
dobro
slabo
srednje
srednje
slabo
srednje
srednje
zelo dobro
srednje
slabo
slabo
srednje
dobro
zelo dobro
slabo
slabo
srednje
2.4
2.4.1
Intervalske spremenljivke
Mere centralne tendence
Mera centralne tendence za dano statistino spremenljivko nam grobo povedano da vrednost, proti kateri se nagibajo vrednosti te spremenljivke na statistini mnoici.
49
M. RAI: STATISTIKA
Dve meri centralne tendence smo e spoznali: pri imenskih spremenljivkah je bil to modus, pri urejenostnih pa mediana. Pri intervalskih spremenljivkah pa kot mero centralne
tendence najpogosteje gledamo aritmetino sredino (angl. arithmetic mean):
x =
x1 + x2 + + xn
.
n
Primer : temperature po Sloveniji v ponedeljek, 20. februarja 2012, ob 17. uri (v Celzijevih
stopinjah):
13, 2, 1, 5, 2 .
Aritmetina sredina:
13 + 2 + 1 + 5 + 2
.
= 0 6
5
To seveda ni verodostojna ocena za povpreno temperaturo vseh naseljenih krajev v
Sloveniji, ker vzorec ni reprezentativen, a ve o tem kasneje. Verodostojneja bi bila ocena
za mediano: m = 2. e bi temperaturo 13 stopinj, ki je bila izmerjena na Kredarici,
zamenjali npr. s temperaturo 0 stopinj, izmerjeno v kaknem nije leeem kraju, bi za
povpreje dobili 2 stopinji, mediana pa se ne bi spremenila.
x =
u-metoda izkoria dejstvo, da se, e vsem podatkom pritejemo neko tevilo, tudi
njihova aritmetina sredina povea za to tevilo. To velja tudi za modus in mediano.
Primer :
876, 879, 878, 878, 877 .
2.4.2
0+3+2+2+1
.
.
= 876 + 1 6 = 877 6 .
5
Mere razprenosti
Mere razprenosti povedo, za koliko se posamezne vrednosti med seboj razlikujejo. Verjetno najpreprosteja izmed njih je kar razlika med najvejo in najmanjo vrednostjo. Tej
pravimo variacijski razmik (angl. range):
VR = max min .
Variacijski razmik pa navadno ni najbolj verodostojna mera razprenosti, saj ga lahko
e en sam podatek, ki izstopa, znatno spremeni. Verodostojneja in robustneja mera
je variacijski razmik srednje polovice podatkov, natanneje razlika med tretjim in prvim
50
M. RAI: STATISTIKA
kvartilom. Tej pravimo interkvartilni razmik (angl. interquartile range, midspread, middle
fty):
IQR = q3/4 q1/4 .
(e kvartila nista natanno doloena, vzamemo q = (q + q+ )/2).
Lahko gledamo tudi povpreni absolutni odklon (average absolute deviation) od primerne referenne vrednosti. e le-to zaasno oznaimo z u, dobimo koliino:
|x1 u| + |x2 u| + + |xn u|
.
n
Ta koliina je najmanja, e za referenno vrednost u vzamemo mediano. Zato je smiselno
gledati povpreni absolutni odmik od mediane:
AADu =
M. RAI: STATISTIKA
51
Nadalje velja:
2 (60) + (50) + 2 (30) + (10) + 230
= 139 ,
x = 140 +
10
1
AADx =
2 |80 139| + |90 139| + 2 |110 139| + |130 139| +
10
.
+ 3 |140 139| + |370 139| = 46 8 .
Konno je e:
1/2
2 (80 139)2 + (90 139)2 + 2 (110 139)2 + (130 139)2 + (370 139)2
s=
=
10
2 (80 140)2 + (90 140)2 + 2 (110 140)2 + (130 140)2 + (370 140)2
=
10
1/2
2
(139 140)
=
.
.
= 6449 = 80 3 .
Vse zgoraj omenjene koliine preprosto dobimo iz frekvennih porazdelitev. Omenimo
le izraavo aritmetine sredine:
1
f 1 a1 + f 2 a2 + + f k ak =
n
= f1 a1 + f2 a2 + + fk ak =
1
= u + f1 (a1 u) + f2 (a2 u) + + fk (ak u) =
n
= u + f1 (a1 u) + f2 (a2 u) + + fk (ak u)
x =
in standardnega odklona:
r
1
s=
f1 (a1 x)2 + f2 (a2 x)2 + + fk (ak x)2 =
n
q
= f1 (a1 x)2 + f2 (a2 x)2 + + fk (ak x)2 =
r
1
=
f1 (a1 u)2 + f2 (a2 u)2 + + fk (ak u)2 (u x)2 =
n
q
x u)2 .
= f1 (a1 u)2 + f2 (a2 u)2 + + fk (ak u)2 (
Pravimo, da je x tehtana sredina vrednosti a1 , a2 , . . . , ak z utemi f1 , f2 , . . . , fk . V splonem je tehtana sredina vsak izraz zgornje oblike, pri katerem so utei nenegativne, njihova
vsota pa je 1.
52
M. RAI: STATISTIKA
Primer : pozitivne ocene s kolokvijev pri predmetu Verjetnost in statistika na univerzitetnem tudiju matematike na UL FMF v tudijskem letu 2010/11:
ocena fi
6
13
7
12
8
7
9
3
10
4
Velja:
285 . .
13 6 + 12 7 + 7 8 + 3 9 + 4 10
=
= 7 31 .
39
39
Lahko raunamo tudi po u-metodi:
x =
x = 8 +
13 (2) + 12 (1) + 7 0 + 3 1 + 4 2
27 . .
=8
= 7 31 .
39
39
2.4.3
Standardizacija
xi x
.
s
53
M. RAI: STATISTIKA
Standardizirana vrednost ima podobno vlogo kot kvantilni rang, pove nam poloaj posamezne vrednosti glede na skupino. Negativna standardizirana vrednost nam pove, da je
vrednost pod povprejem, pozitivna pa, da je nad povprejem.
Standardizirane vrednosti nam omogoajo primerjavo razlinih spremenljivk, recimo
na isti enoti.
Primer : spet si oglejmo rezultate dveh kolokvijev:
Ambro
Bla
Cvetka
Darja
Emil
83
22
61
45
49
Florjan
Gal
Helena
Iva
Jana
Karmen
Lev
Mojca
84
86
71
67
67
88
89
64
in se vpraajmo, kdo je glede na svoje kolege pisal bolje: Cvetka ali Gal?
e spremenljivko, ki predstavlja rezultat na prvem kolokviju, oznaimo z X, spremenljivko, ki predstavlja rezultat na drugem kolokviju, pa z Y , je pri prvem kolokviju x = 52
in sX = 20, torej je Cvetkina standardizirana vrednost:
61 52
.
= 0 45 .
20
Pri drugem kolokviju pa je y = 77 in sY = 10, torej je Galova standardizirana vrednost:
86 77
.
= 0 9.
10
2.4.4
54
M. RAI: STATISTIKA
Pri intervalskih spremenljivkah lahko doloamo irine razredov. Kadar to delamo,
se morajo sosedni intervali stikati: zgornja meja prejnjega razreda se mora ujemati
s spodnjo mejo naslednjega. Meje so pomembne za doloanje irine razredov (glej
spodaj). Izbiramo imbolj realistine meje: e so podatki, ki so na voljo, zaokroeni,
poskusimo predvideti, iz katerih realnih vrednosti je lahko bila dobljena posamezna
zaokroena vrednost. Ne gre vedno za najblijo vrednost starost se zaokrouje
navzdol.
Vasih kakne vrednosti izstopajo (takim se v angleini ree outliers). Te je smiselno prikazati posebej.
Ni enotnega pravila, koliko razredov narediti oziroma kako iroki naj bodo.
V splonem se lahko drimo e omenjenega pravila tretjega korena, po katerem
podatke razdelimo na priblino n1/3 razredov po priblino n2/3 enot.
e elimo dobiti enako iroke razrede, FreedmanDiaconisovo
pravilo [19] pravi, naj
.
.
1162 = 23 8
Toke
Frekvenca Gostota Rel. gostota Rel. gostota na 1000 tok
.
.
.
0 manj kot 25
26
1 040
0 00897
8 97
.
.
.
25 manj kot 75
22
0 440
0 00379
3 79
.
.
.
75 manj kot 150
18
0 240
0 00207
2 07
.
.
.
150 manj kot 300
25
0 167
0 00144
1 44
.
.
.
300 manj kot 1000
22
0 031
0 00027
0 27
1000
3
55
M. RAI: STATISTIKA
iz katere dobimo naslednji histogram:
Rel. frekv.
na 1000 tok
10
8
6
4
Anna Fenninger
b
200
400
600
800
Tina Maze
Maria HRiesch
2
b
1000
1200
1400
1600
1800
2000
2200
2400x
Rel. frekv.
na 1000 tok
8
6
4
2
100
200
300
400
500
600
700
800
900
1000
1100
3
116 = 87 , x(87) = 266 , x(88) = 269 .
4
Prvi in tretji kvantil sta priblino q1/4 30 in q3/4 270, torej mora biti irina razreda
priblino:
480
2 (270 30)
= 96 100 .
3
5
116
Dobimo naslednjo frekvenno tabelo:
56
M. RAI: STATISTIKA
Toke
Frekvenca Rel. frekvenca
.
0 manj kot 100
52
0 452
.
100 manj kot 200
24
0 209
.
200 manj kot 300
15
0 130
.
300 manj kot 400
8
0 067
.
400 manj kot 500
5
0 043
.
500 manj kot 600
2
0 017
.
600 manj kot 700
2
0 017
.
700 manj kot 800
3
0 026
.
800 manj kot 900
2
0 017
.
900 manj kot 1000
0
0 000
.
1000 manj kot 1100
2
0 017
..
..
..
.
.
.
.
2400 manj kot 2500
1
0 009
Histogram:
fi
0.5
0.4
0.3
0.2
0.1
200
2.4.5
400
600
800
1000
1200
1400
1600
1800
2000
2200
2400
2600
Normalna ali Gaussova porazdelitev je v statistiki zgolj idealizacija. Statistina spremenljivka X je porazdeljena priblino normalno s povprejem in standardnim odklonom ,
e je dele enot, za katere X lei med a in b, kjer je a < b, priblino:
Z b
(x)2
b
e 22 dx =
2 a
Drugae prikazano, histogram porazdelitve sledi Gaussovi krivulji:
57
M. RAI: STATISTIKA
58
M. RAI: STATISTIKA
0.1
0.05
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Razkorak med histogramom in Gaussovo krivuljo lahko nastopi tako zaradi napake
v centralnem limitnem izreku kot tudi zaradi napake v centralnem limitnem izreku (oba
govorita o priblini enakosti porazdelitev, torej dopuata doloeno napako). Razkorak v
zgornjem primeru nastopi predvsem zaradi priblinosti v GlivenkoCantellijevem izreku in
manj zaradi priblinosti v centralnem limitnem izreku. Napaka v GlivenkoCantellijevem
izreku se zmanja, e poveamo tevilo metov.
Primer : simulacija 10.000 metov 30 potenih kovancev (ostalo isto kot pri prejnjem
primeru):
Natanneje, GlivenkoCantellijev izrek nam zagotavlja bliino kumulativnih porazdelitvenih funkcij,
s tem pa tudi majhno absolutno napako pri intervalskih verjetnostih.
8
M. RAI: STATISTIKA
59
0.15
0.1
0.05
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
0.1
0.05
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Pri prej prikazanih metih kovanca statistina spremenljivka preteva cifre. Centralni
limitni izrek pa dopua tudi setevanje, ki je posploitev pretevanja.
Primer : verjetnostna porazdelitev pri metih 30 potenih kock, statistina spremenljivka
je skupno tevilo pik na vseh 30 kockah pri posameznem metu:
60
M. RAI: STATISTIKA
0.04
0.03
0.02
0.01
70
2.4.6
80
90
100
110
120
130
140
Tokasto ocenjevanje
= x =
x1 + x2 + + xn
.
n
Pri ocenjevanju standardnega odklona pa naredimo manji popravek: za oceno populacijskega standardnega odklona vzamemo:
r
(x1 x)2 + (x2 x)2 + + (xn x)2
.
= s+ =
n1
=
in:
1
=
(101 97)2 + (91 97)2 + (93 97)2 + (103 97)2 + (91 97)2 +
8
1/2
2
2
2
2
+ (101 97) + (103 97) + (95 97) + (95 97)
=
= 5.
61
M. RAI: STATISTIKA
2.4.7
To bomo obravnavali intervalsko ocenjevanje in testiranje populacijske sredine in standardnega odklona , a ob dodatni predpostavki, da je na populaciji, iz katere dobivamo
podatke, naa statistina spremenljivka porazdeljena normalno. Za primer, ko ocenjujemo
ali testiramo sredino, so metode do doloene mere robustne: e je vzorec dovolj velik, e
vedno delujejo e, e je porazdelitev spremenljivke dovolj lepa, a ne nujno normalna
predvsem morata obstajati matematino upanje in varianca. To sledi iz centralnega
limitnega izreka. Drugae pa je pri standardnem odklonu: predpostavka o normalni porazdelitvi je tu kljuna. Obstajajo pa bolj zapletene konstrukcije, ki za velike n priblino
delujejo tudi pri porazdelitvah, ki niso normalne, so pa dovolj lepe.
Sredina pri znanem standardnem odklonu
Privzemimo, da nas zanima , pri emer poznamo. V tem primeru poznamo tudi
standardno napako:
SE = .
n
Potrebovali bomo e kvantil normalne porazdelitve c = z(1+)/2 . Spomnimo se:
. .
z0.95 = 1 65 ,
. .
z0.975 = 1 96 ,
. .
z0.99 = 2 33 ,
. .
z0.995 = 2 58 .
max =
+ c SE .
min
5 . .
. .
SE = = 1 667 , c = 1 96 ,
9
.
.
.
.
.
.
.
.
.
.
= 97 1 96 1 667 = 93 73 , max = 97 + 1 96 1 667 = 100 27 .
Opomba. e poveamo velikost vzorca, se standardna napaka zmanja. Z drugimi besedami, ve kot imamo na voljo podatkov, natanneje so nae ocene.
Zdaj pa si oglejmo e testiranje nielne hipoteze, da je = . Tako kot pri testiranju
delea bomo obravnavali tri alternativne hipoteze: da je 6= (dvostranski test), da je
> (enostranski test v desno) in da je > (enostranski test v levo). Testiramo
z Z-testom brez popravka na testni statistiki, ki je razmerje med opaeno razliko in
standardno napako:
x
,
Z=
SE
e alternativna hipoteza trdi, da je 6= , izvedemo dvostranski test: nielno
hipotezo zavrnemo, e je |Z| > z1/2 .
62
M. RAI: STATISTIKA
e alternativna hipoteza trdi, da je > , izvedemo enostranski test v desno:
nielno hipotezo zavrnemo, e je Z > z1 .
e alternativna hipoteza trdi, da je < , izvedemo enostranski test v levo: nielno
hipotezo zavrnemo, e je Z < z1 .
Primer . Meritve neke koliine, porazdeljene normalno N(, 5), dajo naslednje vrednosti:
101, 91, 93, 103, 91, 101, 103, 95, 95
. .
Ta vzorec ima x = 97 in SE = 1 667.
Testirajmo nielno hipotezo, da je = 100. V tem primeru testna statistika pride
.
Z = 1 8. Sicer pa moramo test e dorei. Ogledali si bomo ve razliic.
.
Pri stopnji znailnosti = 0 05 testirajmo nielno hipotezo proti alternativni hipotezi, da je 6= 100. To pomeni, da moramo absolutno vrednost testne statistike,
. .
.
|Z| = 1 8, primerjati z z0.975 = 1 96. Vidimo, da nielne hipoteze ne moremo zavrniti. Z drugimi besedami, odstopanja niso statistino znailna.
.
e vedno pri stopnji znailnosti = 0 05 testirajmo nielno hipotezo proti alterna.
tivni hipotezi, da je < 100. Testno statistiko Z = 1 8 moramo zdaj primerjati
.
.
z z0.95 = 1 65. To pomeni, da nielno hipotezo zdaj zavrnemo. Z drugimi besedami, odstopanja v levo so statistino znailna.
.
e vedno pri stopnji znailnosti = 0 05 testirajmo nielno hipotezo proti alterna.
tivni hipotezi, da je < 100. Testno statistiko Z = 1 8 moramo zdaj primerjati
.
.
z z0.95 = 1 65. To pomeni, da nielno hipotezo zdaj zavrnemo. Z drugimi besedami, odstopanja v levo so statistino znailna. e smo obutljivi le na eno stran,
smo lahko tam bolj restriktivni.
.
e vedno pri stopnji znailnosti = 0 05 testirajmo nielno hipotezo proti alterna.
tivni hipotezi, da je > 100. Testno statistiko Z = 1 8 moramo zdaj primerjati z
. .
z0.95 = 1 65. Nielne hipoteze seveda ne zavrnemo. Odstopanja v desno ne morejo
biti statistino znailna, e povpreje od nielne hipoteze odstopa v levo.
.
Tokrat pri stopnji znailnosti = 0 01 testirajmo nielno hipotezo proti alternativni
.
hipotezi, da je < 100. Testno statistiko Z = 1 8 moramo zdaj primerjati z
.
.
z0.99 = 2 33 in vidimo, da nielne hipoteze zdaj ne moremo zavrniti. Odstopanja
v levo so torej sicer statistino znailna, niso pa zelo znailna.
Sredina pri neznanem standardnem odklonu
e standardni odklon ni znan, se da metode iz prejnjega podrazdelka prilagoditi tako,
da standardni odklon nadomestimo z njegovo oceno. Tako je standardna napaka zdaj
enaka:
s+
SE = = .
n
n
63
M. RAI: STATISTIKA
max =
+ c SE ,
min
5 . .
SE = = 1 667 ,
9
.
.
.
.
.
= 97 2 31 1 667 = 93 14 ,
. .
c = t0.975 (8) = 2 31 ,
.
.
.
.
.
max = 97 + 2 31 1 667 = 100 86 .
Interval zaupanja je zdaj malo iri: ker zdaj manj vemo, je tudi naa ocena manj natanna.
Podobno modiciramo tudi testiranje. Nielno hipotezo, da je = , testiramo s
T -testom z n 1 prostostnimi stopnjami na testni statistiki, ki je spet razmerje med
opaeno razliko in standardno napako:
T :=
x
,
SE
kjer je spet SE = .
n
T -test z df prostostnimi stopnjami na testni statistiki T ima spet tri razliice.
Pri dvostranski razliici nielno hipotezo zavrnemo, e je |T | > t1/2 (n 1).
Pri enostranski razliici v desno nielno hipotezo zavrnemo, e je T > t1 (n 1).
Pri enostranski razliici v levo nielno hipotezo zavrnemo, e je T < t1 (n 1).
Vrednosti t1/2 (n 1) oz. t1 pravimo kritina vrednost.
Tako kot pri Z-testu uporabimo dvostransko razliico, e alternativna hipoteza trdi
da je 6= , enostransko razliico v desno, e trdi, da je > , in enostransko razliico
v levo, e trdi, da je < .
9
64
M. RAI: STATISTIKA
.
Primer . Isti vzorec kot pri prejnjem primeru, le da ne vemo, da je = 5. Pri = 0 05
testiramo nielno hipotezo, da je = 100, proti alternativni hipotezi, da je < 100.
. .
.
Spomnimo se, da je x = 97. Izraunajmo e
= 5, SE = 1 667 in od tod T = 1 8, kar
.
.
primerjamo z t0.95 (8) = 2 31. Tokrat nielne hipoteze ne moremo zavrniti: odstopanja
v levo niso statistino znailna. Nauk: e doloene rei (recimo standardnega odklona) ne
poznamo v popolnosti, moramo biti bolj previdni tako kot smo bili tudi pri intervalskem
ocenjevanju.
Standardni odklon pri neznani sredini
Pri standardnem odklonu bomo potrebovali porazdelitev hi kvadrat. Spomnimo se, da
2p (df ) oznauje kvantil porazdelitve hi kvadrat z df prostostnimi stopnjami za verjetnost
p. V naem primeru bo spet df = n 1.
Pri konstrukciji intervalov zaupanja bomo potrebovali kvantila:
c1 = 2(1)/2 (n 1) ,
Spodnja in zgornja meja bosta enaki:
r
n1
min =
,
c2
c2 = 2(1+)/2 (n 1) .
max =
n1
.
c1
2
.
( )2
Podobno kot pri testu sredine imamo tudi tukaj tri razliice testa.
Pri dvostranski razliici nielno hipotezo zavrnemo, e je 2 < 2/2 (n 1) ali
2 > 21/2 (n 1).
Pri enostranski razliici v desno nielno hipotezo zavrnemo, e je 2 > 21 (n 1).
Pri enostranski razliici v levo nielno hipotezo zavrnemo, e je 2 < 2 (n 1).
Dvostransko razliico uporabimo, e alternativna hipoteza trdi da je 6= , enostransko
razliico v desno uporabimo, e alternativna hipotezam trdi, da je > , enostransko
razliico v levo pa, e trdi, da je < .
M. RAI: STATISTIKA
65
Primer . Meritve neke koliine, porazdeljene normalno N(, ), dajo naslednje vrednosti:
99, 90, 108, 111, 97, 93, 90, 106, 104, 102
.
Pri = 0 05 testirajmo nielno hipotezo, da je = 5, proti alternativni hipotezi, da je
. .
6= 5. Izraunajmo
= 7 45 in 2 = 20, kar moramo primerjati s kritinima vrednostma
. .
.
.
20.025 (9) = 2 70 in 20.025 (9) = 19 0. Torej hipotezo zavrnemo, odstopanja so statistino
znailna.
Primerjava povpreij dveh spremenljivk na istih enotah
Denimo, da imamo za vsako enoto dani dve intervalski spremenljivki, X in Y . Oznaimo
z X aritmetino sredino prve, z Y pa aritmetino sredino druge spremenljivke na celotni populaciji. Testiramo nielno hipotezo, da je X = Y , alternativno hipotezo pa
lahko postavimo na tri naine: dvostransko X 6= Y , enostransko v desno X > Y in
enostransko v levo X < Y .
Ta test se prevede na obiajni T -test za eno spremenljivko, ki je kar razlika X Y . e
so torej x1 , . . . , xn vrednosti prve, y1 , . . . , yn pa vrednosti druge spremenljivke na vzorcu,
izraunamo:
s
2
2
(x1 y1 ) (
x y) + + (xn yn ) (
x y)
s+ =
,
n1
s+
x y
SE = ,
.
T =
SE
n
Nadaljujemo kot obiajno pri T -testu. e alternativna hipoteza trdi, da je X 6= Y
(dvostranski test), nielno hipotezo zavrnemo, e je |T | > t1/2 (n 1), e trdi, da je
X > Y (enostranski test v desno), jo zavrnemo, e je T > t1 (n 1), e pa trdi, da je
X < Y (enostranski test v desno), jo zavrnemo, e je T < t1 (n 1).
Primer . Pri predmetu Analiza III na Interdisciplinarnem tudiju raunalnitva in matematike na Univerzi v Ljubljani se pieta dva kolokvija. Rezultati tudentov, ki so v
tudijskem letu 2008/09 pisali oba kolokvija, so zbrani v naslednji tabeli:
66
M. RAI: STATISTIKA
Povpreje
Od tod izraunamo:
.
.
s+ = 17 30 ,
. .
SE = 4 624 ,
.
.
T = 2 92 .
Izvedemo dvostranski test. Podatkov je 14, torej je prostostnih stopenj 13. Ker je
. .
.
t0.975 (13) = 2 16, nielno hipotezo pri = 0 05 zavrnemo razlika med kolokvijema je sta. .
.
tistino znailna. Pri = 0 01 pa vrednost testne statistike primerjamo s t0.995 (13) = 3 01
in dobimo, da razlika ni statistino zelo znailna.
Zgoraj opisani test velja ob predpostavki, da je porazdelitev normalna ali dihotomna
ali pa da je vzorec dovolj velik. e temu ni tako, lahko namesto T -testa izvedemo test z
znaki. V naem primeru pride:
8 .
.
Z = = 2 14 .
14
. .
. .
.
.
Pri = 0 05 to primerjamo z z0.975 = 1 96, pri = 0 01 pa z z0.995 = 2 58. Spet dobimo,
da je razlika statistino znailna, ni pa zelo znailna.
S+ = 3 ,
S = 11 ,
67
M. RAI: STATISTIKA
Testov normalne porazdelitve je veliko. V veini primerov so najustrezneji t. i. prilagoditveni testi (angl. goodness of t), ki merijo, koliko empirina (vzrona) porazdelitev odstopa od normalne (ali nasprotno, kako tesno se ji prilega). Tu bomo spoznali
AndersonDarlingov test, natanneje, DAgostinovo modikacijo tega testa [17]. Podatke
najprej uredimo po velikosti naredimo ranirno vrsto:
X(1) X(2) X(n) .
Spomnimo se: X(i) je i-ta vrstilna statistika. Podatke standardiziramo za ta namen
izraunamo aritmetino sredino in popravljeni vzorni standardni odklon:
v
u
n
u 1 X
X
+
X
+
+
X
1
2
n
t
2.
X=
,
s+ =
(Xi X)
n
n 1 i=1
+ . Potrebovali bomo standardizirane vrStandardizirane vrednosti so Zi := (Xi X)/s
+ . Iz njih izraunamo AndersonDarlingovo testno
stilne statistike Z(i) := (X(i) X)/s
statistiko:
n
1X
1
1
2
A = n
+ (Z(i) ) + (2n 2i + 1) ln
(Z(i) )
.
(2i 1) ln
n i=1
2
2
ez
2 /2
dz .
Vrednosti te funkcije lahko oditamo iz tabele. Kot smo e omenili, bomo uporabili
DAgostinovo modikacijo testa, ki temelji na naslenjem popravku AndersonDarlingove
statistike:
.
.
0 75 2 25
2
2
+ 2
A =A 1+
n
n
Nielno hipotezo o normalnosti zavrnemo:
.
.
pri stopnji znailnosti = 0 05, e je A2 > 0 752;
.
.
pri stopnji znailnosti = 0 01, e je A2 > 1 035.
68
M. RAI: STATISTIKA
.
.
0 75 2 25 . .
. .
+
= 0 5936 .
= 0 5342 1 +
9
81
.
.
Ker je 0 5936 < 0 752, odstopanja od normalne porazdelitve niso statistino znailna.
e so vrednosti podane v frekvenni tabeli:
vrednosti frekvence kumulativne frekvence
a1
f1
F1
a2
f2
F2
..
..
..
.
.
.
ak
fk
Fk
jih najprej spet standardiziramo izraunamo:
v
u
k
k
k
X
X
u 1 X
1
t
2,
f j aj , s + =
fj (aj X)
n=
fj = F k , X =
n
n
1
j=1
j=1
j=1
bj =
aj X
.
s+
69
M. RAI: STATISTIKA
.
.
.
.
.
.
.
.
.
.
bj 1 187 0 420 0 347 1 114 1 880 2 647 3 414 4 181 4 947 6 481
fj
227
168
320
96
29
11
4
2
2
1
Fj
227
395
715
811
840
851
855
857
859
860
Fj1 + Fj
227
622 1110 1526 1651 1691 1706 1712 1716 1719
AndersonDarlingova statistika je enaka:
1
.
.
2 .
A = 860
227 227 ln 0 1177 + 1493 ln 0 8823 +
860
.
.
+ 168 622 ln 0 3373 + 1098 ln 0 6627 +
.
.
+ 320 1110 ln 0 6356 + 610 ln 0 3654 +
.
.
+ 96 1526 ln 0 8672 + 194 ln 0 1328 +
.
.
+ 29 1651 ln 0 96997 + 69 ln 0 03003 +
.
.
+ 11 1691 ln 0 995941 + 29 ln 0 004059 +
.
.
+ 4 1706 ln 1 3 202 104 + 14 ln 3 202 104 +
.
.
5
5
+
+ 8 ln 1 452 10
+ 2 1712 ln 1 1 452 10
.
.
+ 2 1716 ln 1 3 760 107 + 4 ln 3 760 107 +
.
.
11
11
+ 1 1719 ln 1 4 556 10
+ 1 ln 4 556 10
.
.
= 35 036 .
.
225
0 75
.
.
+
= 35 066. Ker je to veje od
Modicirana vrednost pa je 35 036 1 +
860
8602
.
1 035, je odstopanje od normalne porazdelitve tokrat statistino zelo znailno.
.
70
M. RAI: STATISTIKA
3.
Povezanost dveh statistinih
spremenljivk bivariatna analiza
V tem poglavju se bomo ukvarjali z dvema statistinima spremenljivkama, deniranima
na isti statistini mnoici. Nauili se bomo dve stvari:
Za vsak par merskih lestvic bomo poiskali tevilsko karakteristiko, ki bo vrednotila
stopnjo povezanosti med spremenljivkama. eprav vse karakteristike niso neposredno primerljive, bomo povedali, katera vrednost doloene karakteristike ustreza
doloeni vrednosti druge karakteristike. Uvedli pa bomo tudi opisno (kvalitativno)
lestvico povezanosti: neznatna, nizka, zmerna, visoka in zelo visoka. To bo olajalo
primerjavo karakteristik.
Za primer, ko je naa statistina mnoica enostavni sluajni vzorec iz velike populacije, pa bomo za vsak par merskih lestvic konstruirali tudi test hipoteze, da sta
statistini spremenljivki na celi populaciji nepovezani (neodvisni). Tako bo povezanost lahko statistino neznailna, znailna ali zelo znailna. Statistina znailnost
(p-vrednost) je drug pojem kot stopnja povezanosti na vzorcu: pri majhnih vzorcih
se lahko zgodi, da je povezanost visoka, a statistino neznailna. Pri velikih vzorcih
pa se lahko zgodi celo, da je povezanost kvalitativno ovrednotena kot neznatna, a
je statistino zelo znailna.
POZOR! Povezanost dveh statistinih spremenljivk e ne pomeni, da ena od njiju
neposredno vpliva na drugo povezanost ne implicira vzronosti. Navadno povezanost
nastane zaradi tega, ker na obe spremenljivki vpliva neka tretja spremenljivka (lahko zelo
posredno), le-to pa je dostikrat teko doloiti.
71
72
M. RAI: STATISTIKA
3.1
3.1.1
Vrednotenje asociiranosti
a1
a2
..
.
ak
b1 b2
f11 f12
f21 f22
..
..
.
.
fk1 fk2
f1 f2
bl
f1l
f2l
. . . ..
.
fkl
fl
f1
f2
..
.
fk
n
fij
=
,
n
fi
fi X
=
=
fij ,
n
j=1
fj
fj X
=
=
fij .
n
i=k
73
M. RAI: STATISTIKA
oi\lasje
modre
zelene
rjave
Skupaj
oi\lasje
modre
zelene
rjave
Skupaj
rdei
.
0 016
.
0 000
.
0 032
.
0 048
Relativne frekvence:
blond rjavi, rni Skupaj
.
.
.
0 177
0 016
0 210
.
.
.
0 226
0 145
0 371
.
.
.
0 032
0 355
0 419
.
.
.
0 435
0 516
1 000
Obstaja veliko tevilskih mer (pokazateljev) povezanosti. Eden najboljih je Cramrjev koecient asociiranosti, osnova za njegov izraun pa so teoretine relativne navzkrine
frekvence:
fij = fi fj ,
Teoretine relativne navzkrine frekvence bi se pri danih relativnih robnih frekvencah
pojavile, e bi bili spremenljivki neasociirani, t. j. neodvisni v smislu teorije verjetnosti,
e bi statistino mnoico obravnavali kot verjetnostni prostor, na katerem bi bile vse
enote enako verjetne. e bi bilo npr. v populaciji 20% oseb z modrimi omi in 50% oseb
z rjavimi ali rnimi lasmi ter barva oi in barva las ne bi bili povezani, bi bilo oseb, ki
imajo tako modre oi kot tudi rjave ali rne lase, 20% od 50%, kar znaa 10%. Z drugimi
.
.
.
besedami, dele bi bil 0 2 0 5 = 0 1.
V naem prejnjem primeru so teoretine relativne navzkrine frekvence enake:
oi\lasje
modre
zelene
rjave
Skupaj
rdei
.
0 010
.
0 018
.
0 020
.
0 048
Cramrjev koecient asociiranosti je zasnovan na razkoraku med opaenimi in teoretinimi relativnimi frekvencami in je deniran s formulo:
v
u
k X
l
2
X
u
f
f
1
ij
ij
.
V := t
min{k, l} 1 i=1 j=1
fij
74
M. RAI: STATISTIKA
a1
a2
b1 b2
A B ,
C D
75
M. RAI: STATISTIKA
Ve informacije pa nam da predznaena vrednost:
AD BC
= p
.
(A + B)(C + D)(A + C)(B + D)
vsaj malo ne
5
7
6
9
11
16
Skupaj
12
15
27
5976
. .
= 0 017.
12 15 11 16
Gre torej za neznatno pozitivno povezanost.
Velja =
3.1.2
Testiranje neasociiranosti
Nielno hipotezo, da spremenljivki na celotni populaciji nista asociirani, testiramo s kontingennim testom. To je test hi kvadrat, in sicer z enostransko razliico v desno in
(k 1)(l 1) prostostnimi stopnjami, kjer je kot prej k tevilo monih vrednosti prve, l
pa tevilo monih vrednosti druge spremenljivke. Testna statistika hi kvadrat pa se izraa
s formulo:
2
k X
l
X
2
fij fij
2
=
n
min{k,
l}
1
V .
=n
fij
i=1 j=1
Nielno hipotezo torej zavrnemo, e je 2 > 21 (k 1)(l 1) . e jo zavrnemo pri
.
.
= 0 05, pravimo, da sta spremenljivki znailno asociirani, e jo zavrnemo pri = 0 01,
pa pravimo, da sta zelo znailno asociirani.
76
M. RAI: STATISTIKA
Opomba. Tudi kontingenni test hi kvadrat je zgolj priblien. Dovolj natanen je pri
naslednjih predpostavkah:
Populacija je velika.
Gre za enostavni sluajni vzorec.
Teoretine absolutne frekvence so najmanj 5: fij = nfij 5 za vse i in j. Sicer
zdruimo blinje razrede.
Primer : recimo, da prejnja tabela barv las in oi pripada enostavnemu sluajnemu
.
vzorcu iz velike populacije. Pri stopnji znailnosti = 0 01 testiramo hipotezo, da sta
barva oi in barva las na populaciji neasociirani. Najprej poglejmo, ali so sploh izpolnjeni
pogoji za izvedbo testa. Teoretine absolutne frekvence so:
oi\lasje
modre
zelene
rjave
kar pomeni, da pogoji za test niso izpolnjeni in moramo zdruiti doloene razrede. Glede
na to, da je rdeelascev opazno najmanj, jih bomo zdruili z blondinci. Dobimo:
Opaene absolutne frekvence:
oi\lasje
modre
zelene
rjave
Skupaj
rdei, rjavi,
Skupaj
blond rni
12
1
13
14
9
23
4
22
26
30
32
62
rdei, rjavi,
blond rni
.
.
6 29 6 71
.
.
11 13 11 87
.
.
12 58 13 42
30
32
Skupaj
13
23
26
62
rdei,
blond
.
0 194
.
0 226
.
0 065
.
0 484
rjavi,
rni
.
0 016
.
0 145
.
0 355
.
0 516
Skupaj
.
0 210
.
0 371
.
0 419
.
1 000
rdei,
blond
.
0 101
.
0 180
.
0 203
.
0 484
rjavi,
rni
.
0 108
.
0 191
.
0 216
.
0 516
Skupaj
.
0 210
.
0 371
.
0 419
.
1 000
77
M. RAI: STATISTIKA
Cramrjev koecient asociiranosti bo za zdruene razrede drugaen:
.
.
.
.
(0 194 0 101)2 (0 016 0 108)2
+
+
.
.
0 101
0 108
.
.
.
.
(0 226 0 180)2 (0 145 0 191)2
+
+
+
.
.
0 180
0 191
.
.
.
.
(0 065 0 203)2 (0 355 0 216)2 . .
+
= 0 36799 ,
+
.
.
0 203
0
216
r .
0 36799 . .
.
V =
= 0 61 .
21
Povezanost torej e vedno pride zmerna. Testna statistika pa pride:
.
.
.
.
2 = 62 0 36799 = 22 82 .
. .
Ker kritina vrednost pride 20.99 (2) = 9 21, nielno hipotezo, da barva oi in barva las
nista asociirani, zavrnemo: na naem vzorcu sta barvi statistino zelo znailno asociirani.
3.2
Koreliranost pove, v kolikni meri sta spremenljivki povezani glede na naraanje in padanje: e se ena od spremenljivk povea, ali se druga v povpreju povea, zmanja ali
ni od tega. Zato je koreliranost predznaena koliina: mona je pozitivna ali negativna
koreliranost.
Pri preuevanju koreliranosti nam pride prav diagramom razprenosti (tudi razsevni
diagram, angl. scatter plot, scattergraph), kjer podatke predstavimo kot pike v ravnini, pri
emer koordinata x pove vrednost prve, koordinata y pa vrednost druge spremenljivke.
Primer : vremenska napoved temperatur za naslednjih nekaj dni
dan
petek
sobota
nedelja
ponedeljek
torek
Pripadajoi diagram razprenosti:
jutranja dnevna
14
19
12
20
10
21
11
22
12
21
78
M. RAI: STATISTIKA
dnevna
22
b
21
b
20
b
19
b
10
11
12
13
14
jutranja
3.2.1
Kovarianca
x =
x1 + x2 + + xn
,
n
y =
y1 + y2 + + yn
.
n
79
M. RAI: STATISTIKA
.
.
.
.
Kovarianca: KX,Y = 0 1 8 0 6 = 1 08.
Kovarianco lahko raunamo tudi iz kontingenne tabele:
k
KX,Y
1 XX
=
fij (ai x)(bj y) =
n i=1 j=1
=
k X
l
X
i=1 j=1
k
1 XX
=
fij (ai u)(bj v) (
x u)(
y v) =
n i=1 j=1
=
k X
l
X
i=1 j=1
1
1
2
3
0
1
7
2
1
2
1
1
1
6
3
0
2
1
1
0
4
4
0
0
0
1
0
1
5
1
1
0
0
0
2
fi
3
7
5
3
2
20
80
M. RAI: STATISTIKA
Izraun kovariance po u-metodi pri u = 3 (za x) in v = 2 (za y):
1
(2) (1) 1 + (2) 0 1 + (2) 1 0 + (2) 2 0 + (2) 3 1 +
Kx,y =
20
+ (1) (1) 2 + (1) 0 2 + (1) 1 2 + (1) 2 0 + (1) 3 1 +
+ 0 (1) 3 + 0 0 1 + 0 1 1 + 0 2 0 + 0 2 0 +
+ 1 (1) 0 + 1 0 1 + 1 1 1 + 1 2 1 + 1 2 0 +
+ 2 (1) 1 + 2 0 1 + 2 1 0 + 2 2 0 + 2 2 0
.
.
(2 7 3) (2 25 2) =
.
= 0 225 .
S pomojo kovariance na vzorcu lahko tokasto ocenimo kovarianco na celotni populaciji. Vendar pa moramo podobno kot pri standardnem odklonu za nepristransko oceno
deliti z n 1 namesto z n. e je torej X,Y populacijska kovarianca, je njena cenilka:
[X, Y ] = KX,Y + :=
.
Primer : kovarianca na vzorcu 20 tudentov je prila 0 225. Ocena za kovarianco na
celotni populaciji pa je:
20 .
. .
K = ..
..
..
...
.
.
.
Kr1 Kr2 . . . Krr
S Kij smo tu oznaili kovarianco i-te in j-te spremenljivke. Tako na primer v psihometriji
(in tudi drugje) pomembno vlogo igra Cronbachov , ki je razmerje med vsoto kovarianc
parov razlinih spremenljivk in vsoto vseh kovarianc (t. j. vkljuno z variancami), vse
skupaj pomnoeno z r/(r 1):
!
P
P
Kii
r
r
i,j;i6=j Kij
i
P
=
1 P
.
=
r1
r
1
K
ij
i,j
i,j Kij
e so komponente nekorelirane, je = 0.
81
M. RAI: STATISTIKA
3.2.2
Kovarianca sama po sebi ni dobro merilo za stopnjo povezanosti, saj je odvisna od merskih
enot: e npr. eno od spremenljivk pomnoimo s 100 (recimo e jo podamo v centimetrih
namesto v metrih), se tudi kovarianca pomnoi s 100. Pearsonov korelacijski koecient
to pomanjkljivost odpravi tako, da kovarianco deli s produktom standardnih odklonov:
r = r X,Y =
KX,Y
,
sX sY
kjer je:
r
sX =
82
M. RAI: STATISTIKA
.
do 0 04: neznatna povezanost;
.
.
od 0 04 do 0 16: nizka povezanost;
.
.
od 0 16 do 0 49: zmerna povezanost;
.
.
od 0 49 do 0 81: visoka povezanost;
.
od 0 81 do 1: zelo visoka povezanost.
jutranja dnevna
14
19
12
20
10
21
11
22
12
21
.
1 08
. .
.
.
.
sY = 1 020 ;
r X,Y = .
= 0 80 .
.
1 327 1 020
.
Determinacijski koecient: 0 64.
Jutranja in dnevna temperatura sta torej visoko negativno povezani: pri viji jutranji
temperaturi lahko priakujemo nijo dnevno.
. .
sX = 1 327 ,
Pri takni napovedi, kot je ta (za nekaj zaporednih dni) ima pri korelaciji verjetno
nejvejo teo vpliv oblanosti, ki via jutranjo, a nia dnevno temperaturo. Pri napovedi
za dalje obdobje bi bila korelacija bistveno drugana.
Primer : pri kontingenni tabeli, ki se nanaa na vpraanji, koliko ur anketirani tudent
preivi na raunalniku in koliko s prijatelji:
X \Y
1
2
3
4
5
fj
pride:
. .
sX = 1 1874 ,
1
1
2
3
0
1
7
2
1
2
1
1
1
6
. .
sY = 1 2600 ,
3
0
2
1
1
0
4
4
0
0
0
1
0
1
5
1
1
0
0
0
2
fi
3
7
5
3
2
20
.
0 225
.
.
.
= 0 15 .
r X,Y = .
.
1 1874 1 2600
83
M. RAI: STATISTIKA
y
.
r = 0 58
x
To so nakljuno generirani podatki, a nakljunost je nastavljena tako, da so nekorelirani.
y
r =0
x
Ti podatki so visoko pozitivno korelirani.
y
.
r =09
84
M. RAI: STATISTIKA
Skrajni primer je korelacija 1, ko gre za linearno odvisnost.
y
r =1
x
Tu korelacija ni enaka 1, eprav sta spremenljivki v deterministini strogo naraajoi
povezavi:
y
.
r = 0 96
x
Korelacija je lahko tudi negativna:
85
M. RAI: STATISTIKA
y
.
r = 0 5
x
Tukaj je korelacija enaka 1:
y
r = 1
x
e en primer nekoreliranih podatkov:
y
r =0
x
Tukaj se y deterministino izraa z x, podatki pa so nekorelirani.
86
M. RAI: STATISTIKA
y
r =0
3.2.3
Testiranje nekoreliranosti
r
T =
n 2,
1 r2
kjer je r = r X,Y Pearsonov korelacijski koecient. Aktualne so vse tri razliice testa:
dvostranska razliica, e H1 trdi, da sta X in Y korelirani;
enostranska razliica v desno, e H1 trdi, da sta X in Y pozitivno korelirani;
enostranska razliica v levo, e H1 trdi, da sta X in Y negativno korelirani.
Test je zasnovan ob predpostavki, da sta X in Y na populaciji porazdeljeni normalno.
.
Primer : pri temperaturah za 5 dni je korelacijski koecient priel 0 80, torej je bila
koreliranost visoka. Recimo, da bi lo za enostavni sluajni vzorec in da bi testirali
nielno hipotezo, da sta jutranja in dnevna temperatura nekorelirani, proti alternativni
hipotezi, da sta korelirani. Testna statistika pride:
.
.
0 80
.
3 = 2 31 .
T =
.
1 0 802
. .
.
Pri stopnji znailnosti = 0 05 to primerjamo s t0.975 (3) = 3 18 in hipoteze ne zavrnemo:
koreliranost ni statistino znailna.
Primer : pri 52 tudentih, ki so v tudijskem letu 2010/11 na biopsihologiji pisali oba
.
kolokvija iz statistike, korelacijski koecient med obema kolokvijema pride 0 58, torej
je koreliranost zmerna. Pa recimo, da bi bil to spet enostavni sluajni vzorec in da bi
testirali nielno hipotezo, prvi in drugi kolokvij nekorelirani, proti alternativni hipotezi,
da sta korelirana. Testna statistika pride:
.
0 58
. .
T =
. 2 50 = 5 03 .
1 0 58
87
M. RAI: STATISTIKA
. .
Ker je t0.995 (50) = 2 68, je koreliranost statistino zelo znailna, eprav je le zmerna,
medtem ko je bila prej koreliranost visoka, a statistino neznailna. Toda zdaj smo imeli
na voljo precej ve podatkov.
3.3
Podatke, kjer sta na isti statistini mnoici denirani intervalska spremenljivka (recimo
U ) in dihotomna spremenljivka (recimo G), lahko predstavimo bodisi kot:
u1 , u 2 , . . . , u N
g1 , g2 , . . . , gN
bodisi podatke razdelimo glede na vrednost dihotomne spremenljivke. e le-ta zavzame
vrednosti a in b, lahko podatke, na katerih druga spremenljivka zavzame vrednost a,
predstavimo z:
x1 , x2 , . . . , xm ,
podatke, na katerih druga spremenljivka zavzame vrednost b, pa z:
y1 , y2 , . . . , yn .
e drugae, gledati dve spremenljivki, od katerih je druga dihotomna, na eni statistini
mnoici, je ekvivalentno gledanju prve spremenljivke na dveh razlinih statistinih mnoicah (dihotomna spremenljivka nam statistino mnoico razdeli na dve skupini).
Primer : pri nekem izpitu gledamo rezultat in spol:
Ime
Rezultat (ui ) Spol (gi )
Jan
22
M
Karmen
39
Barbara
73
Kristina
34
Domen
52
M
Katja
34
Alja
39
M
Rok
52
M
Sabina
38
Diana
53
Jerica
59
Tilen
43
M
Rezultate lahko loimo po spolih:
enske: x1 = 39 , x2 = 73 , x3 = 34 , x4 = 34 , x5 = 38 , x6 = 53 , x7 = 59 .
Moki: y1 = 22 , y2 = 52 , y3 = 39 , y4 = 52 , y5 = 43 .
88
M. RAI: STATISTIKA
Prikaz s pikami:
b
enske:
b
Moki:
3.3.1
b b
b
b
x y mn
r pb =
,
s m+n
ne glede na to, koliko sta vrednosti a in b dejansko enaki. Zato ni nujno, da je dihotomna
spremenljivka numerina, lahko je le imenska. Koecient za ta primer imenujemo tokovni
biserialni korelacijski koecient (angl. point biserial correlation coecient).
Oznaka s se tu nanaa na skupni standardni odklon, t. j. standardni odklon spremenljivke U :
r
(u1 u)2 + (u2 u)2 + + (uN u)2
s=
=
N
r
(x1 u)2 + + (xm u)2 + (y1 u)2 + + (yn u)2
,
=
N
u pa je aritmetina sredina vseh podatkov:
u =
u1 + u 2 + + uN
,
N
.
.
. 47 14 41 6 7 5 . .
= 0 2097 .
=
.
13 03
7+5
Kvalitativno opredeljevanje tokovnega biserialnega koecienta je enako kot pri Pearsonovem: gre torej za nizko povezanost v korist ensk. Ali drugae, enske so pisale malo
bolje kot moki.
Aritmetina sredina vseh podatkov je enaka tehtani sredini aritmetinih sredin posameznih skupin:
m
n
u =
x +
y .
m+n
m+n
z uteema, ki sta sorazmerni z velikostma skupin, ki ju predstavljata.
89
M. RAI: STATISTIKA
m
n
s2X +
s2Y
m+n
m+n
varianca znotraj skupin (angl. within groups) ali tudi nepojasnjena varianca (angl. unexplained variance, pooled variance) in:
s2W =
s2B =
mn
(
x y)2
2
(m + n)
varianca med skupinama (angl. between groups ali tudi pojasnjena varianca (angl. explained variance). To je tisti del variance, ki jo pojasnjuje skupina, v kateri je podatek.
Na zgornji in splonejih razlenitvah variance temelji analiza variance (angl. analysis
of variance, ANOVA), ki je pomemben del inferenne statistike. Malo kasneje bomo
omenili posploitev na ve skupin.
Kvadrat tokovnega biserialnega korelacijskega koecienta (tokovni biserialni determinacijski koecient) predstavlja dele pojasnjene variance ali tudi mo uinka (angl.
strength of eect, eect size), saj velja:
r 2pb =
s2B
s2B
=
.
s2
s2W + s2B
75
. .
.
.
(47 14 41 6)2 = 7 5 .
2
(7 + 5)
.
.
.
.
s2X = 191 3 , sX = 13 83 ,
.
.
.
.
s2Y = 121 8 , sY = 11 04 .
90
M. RAI: STATISTIKA
3.3.2
Kot mero za povezanost intervalske in dihotomne spremenljivke lahko gledamo tudi standardizirano razliko povpreij (angl. standardized mean dierence) ali tudi Cohenov koecient:
x y
d=
sW
Tokovni biserialni in Cohenov koecient nam dajeta isto informacijo, saj se izraata drug
z drugim:
m+n
d
r
q pb
,
d=
r pb = q
.
2
mn
2
1
r
d2 + (m+n)
pb
mn
Nudita pa dva razlina pogleda: tokovni biserialni korelacijski koecient je osredotoen
bolj na povezanost, Cohenov koecient pa bolj na razliko.
V naem primeru je:
3.3.3
.
.
. 47 14 41 6 . .
d= .
= 0 435 .
162 3
Tako kot nam dihotomna spremenljivka razdeli vzorec na dva podvzorca, nam tudi populacijo razdeli na dve podpopulaciji. Oznaimo z X sredino spremenljivke na prvi, z
Y pa na drugi podpopulaciji. Testiramo nielno hipotezo, da je X = Y . To storimo s
T -testom z N 2 prostostnimi stopnjami na testni statistiki:
x y
,
T =
SE
kjer je:
r
N
SE = sW+
,
mn
r
(x1 x)2 + + (xm x)2 + (y1 y)2 + + (yn y)2
sW+ =
N 2
. .
Primer : spol in rezultat kolokvija. Pri stopnji znailnosti = 0 05 dvostransko testiramo,
ali sta spol in rezultat nedvisna. Spomnimo se:
.
.
.
.
.
.
m = 7 , n = 5 , x = 47 14 , y = 41 60 , s2W = 162 3 .
Od tod dobimo:
sW+
.
=
12
. .
.
162 3 = 13 96 ,
10
.
SE =
12
. .
.
13 96 = 8 173 .
35
.
.
47 14 41 60 . .
= 0 678 .
.
8 173
. .
Glede na test moramo to primerjati s t0.975 (10) = 2 23, torej hipoteze ne zavrnemo: razlike
med spoloma niso statistino znailne.
91
M. RAI: STATISTIKA
3.4
3.4.1
Podatke, kjer sta na isti statistini mnoici denirani intervalska spremenljivka (recimo
X) in imenska spremenljivka (recimo G), lahko spet predstavimo na dva naina. Tako,
kot je prej opisano, bomo vrednosti intervalske in imenske spremenljivke tokrat oznaevali
z:
x1 , x2 , . . . , xn
g1 , g2 , . . . , gn
Lahko pa spet podatke razdelimo glede na vrednost imenske spremenljivke preindeksiramo jih na naslednji nain:
x11 , x12 , . . . , x1n1 : vrednosti spremenljivke X, kjer je G = g1
x21 , x22 , . . . , x2n2 : vrednosti spremenljivke X, kjer je G = g2
..
.
xk1 , xk2 , . . . , xkn2 : vrednosti spremenljivke X, kjer je G = gk
Seveda velja n1 + n2 + + nk = n.
x1 + x2 + + xn
,
n
n1
n2
nk
x1 +
x2 + +
xk .
n
n
n
92
M. RAI: STATISTIKA
s2i =
s2W
pojasnjena varianca ali varianca med skupinami pa je tehtana sredina kvadratov odklonov
aritmetinih sredin posameznih skupin od celostne aritmetine sredine:
s2B =
n1
n2
nk
(
x1 x)2 +
(
x2 x)2 + +
(
xk x)2 .
n
n
n
n1
n2
nk
(
x1 u)2 +
(
x2 u)2 + +
(
xk u)2 (
x u)2 .
n
n
n
Zgoraj denirane variance so posploitve varianc, ki smo jih gledali pri povezanosti intervalske in dihotomne spremenljivke. Tako povezanost intervalske in imenske spremenljivke
spet merimo z deleem pojasnjene variance oz. mojo uinka:
2 =
s2B
,
s2
93
M. RAI: STATISTIKA
Pogostnost zahajanja v kino je intervalska, zvrst lma pa imenska spremenljivka. Rezultati ankete so naslednji:
zvrst lma\t. obiskov kina
komedija
akcija
romantini
drama
grozljivka
Skupaj
0
4
0
0
4
0
8
1
2
1
3
1
0
7
2
2
0
1
2
0
5
Skupaj Povpreje
.
8
0 75
1
1
.
4
1 25
.
7
0 7143
0
.
20
0 85
Skupna varianca:
s2 =
.
.
.
8 (0 0 85)2 + 7 (1 0 85)2 + 5 (2 0 85)2
.
= 0 6275 .
20
.
. 0 0436 . .
2 = .
= 0 069 .
0 6275
.
Razlinost najljubih zvrsti lma torej pojasni 6 9% variance tevila obiskov kina. To
pomeni nizko povezanost.
Primer : primerjava rezultatov kolokvijev v tudijskem letu 2010/11 med tudenti biopsihologije pri predmetu Statistika, univerzitetnimi tudenti matematike pri predmetu
Verjetnost in statistika in tudenti praktine matematike pri predmetu Matematika 2.
teti so le tudenti, ki so pisali polno tevilo zahtevanih kolokvijev.
Biopsihologi (52):
b
b b
bbb
bb
bb b b b b b
bb b
b bb
b b
bb b
bb
bbb b
bb
b bb b bb
b b
b b b b b
b b bbb b b bb b
b bb b
b b b
b b
b b b b b bb
b b b bb
b b
b b
bb
94
M. RAI: STATISTIKA
Biopsihologi:
Univerzitetni matematiki:
Praktini matematiki:
x1
x2
x3
.
.
= 64 885 ,
.
.
= 63 056 ,
.
.
= 54 318 ,
s1
s2
s3
.
.
= 19 603 .
.
.
= 14 891 .
.
.
= 11 279 .
Z drugimi besedami, tudijski program pojasni dobrih 5% variance, ostalih slabih 95%
variance pa nastane zaradi drugih vplivov. Kvalitativno gre za nizko povezanost.
3.4.2
Testiranje povezanosti
95
M. RAI: STATISTIKA
Primer : primerjava rezultatov kolokvijev med prej omenjenimi tremi skupinami tudentov:
. .
F = 3 162 .
. .
.
e testiramo pri stopnji znailnosti = 0 05, to primerjamo z F0.95 (2, 119) = 3 072 in
dobimo, da je povezava med rezultatom in predmetom, ki ga je tudent delal, statistino
znailna. Pri tem se pretvarjamo, da gre za enostavni sluajni vzorec.
3.5
Povezanost dveh urejenostnih spremenljivk merimo s Spearmanovim ali Kendallovim korelacijskim koecientom. Raunanje slednjega je nekoliko bolj zapleteno, zato se bomo
posvetili le prvemu.
Sploni pristop pri urejenostnih spremenljivkah je, da uporabimo metode za intervalske
spremenljivke na rangih. Spearmanov korelacijski koecient je deniran natanko v tem
(X)
(X)
(X)
duhu: to je Pearsonov koecient, izraunan za vezane range. e z R1 , R2 , . . . , Rn
(Y )
(Y )
(Y )
oznaimo vezane range spremenljivke X, z R1 , R2 , . . . , Rn pa vezane range spremenljivke Y po enotah, se kovarianca rangov izraa s formulo:
KR(X) ,R(Y ) =
(X)
R1
R1(Y ) R
+ R2(X) R
R2(Y ) R
+ + Rn(X) R
Rn(Y ) R
R
,
n
kjer je:
= n+1
R
2
povpreni rang (ker je le-ta celo tevilo ali pa celo tevilo in pol, u-metoda tu ni toliko
smiselna). Nato izraunamo e standardna odklona rangov:
s
(X)
2 + R2(X) R
2 + + Rn(X) R
2
R1 R
,
sR(X) =
n
s
(Y )
2 + R2(Y ) R
2 + + Rn(Y ) R
2
R1 R
sR(Y ) =
,
n
e ni vezi, velja kar:
n2 1
,
12
sicer pa sta standardna odklona manja. Spearmanov korelacijski koecient deniramo
po formuli:
KR(X) ,R(Y )
.
= X,Y :=
sR(X) sR(Y )
sR(X) = sR(Y ) =
96
M. RAI: STATISTIKA
Primer : elimo izmeriti povezavo med zadovoljstvom s telesno teo in subjektivnim vplivom medijev na samopodobo. Za ta namen izvedemo anketo z dvema vpraanjema, pri
katerih imamo naslednje izbire:
1. Ali ste zadovoljni s svojo teo?
(a) Da.
(b) Srednje.
(c) Ne.
2. V kolikni meri mediji vplivajo na vao samopodobo?
(a) Sploh ne vplivajo.
(b) Srednje vplivajo.
(c) Mono vplivajo.
Obe spremenljivki (zadovoljstvo s telesno teo in vpliv medijev) sta tako urejenostni.
Dogovorimo se za naslednjo smer urejenosti: pri zadovoljstvu s telesno teo postavimo:
da < srednje < ne ,
(torej v resnici gledamo nezadovoljstvo), vpliv medijev pa uredimo takole:
ni < srednje < mono .
Denimo, da povpraamo tiri tudente in dobimo naslednje odgovore:
zadovoljen/a s teo
mediji vplivajo
srednje
srednje
srednje
ni
ne
da
mono ni
.
Pri zadovoljstvu s teo ima odgovor da rang 1, odgovor srednje rang 2 5, odgovor
.
ne pa rang 4. Pri vplivu medijev pa ima odgovor ni rang 1 5, odgovor srednje rang
3, odgovor mono pa rang 4. Torej bo:
(X)
R1
(Y )
R1
.
= 2 5,
R2
= 3,
R2
(X)
(X)
4+1
2
.
= 2 5,
.
= 1 5,
(X)
= 4,
R4
(X)
= 4,
R4
R3
R3
(X)
(X)
= 1,
.
= 1 5.
.
= 2 5. Kovarianca rangov:
1h .
.
.
.
.
.
.
(2 5 2 5)(3 2 5) + (2 5 2 5)(1 5 2 5) +
4
i
.
.
.
.
.
+ (4 2 5)(4 2 5) + (1 2 5)(1 5 2 5) =
.
= 0 9375 .
KR(X) ,R(Y ) =
M. RAI: STATISTIKA
97
98
M. RAI: STATISTIKA
b
b
b
b
b
b
b b
b b
b b
b b b
b
b
b b b
b b b b b b b
b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b
b b b b b b b
b b b b
b b b
b b
bb b
b
b b
b
b
b
b
KR(x) ,R(y) =
sR(x)
sR(y)
ga ni
8
2
2
12
srednji
1
1
4
6
moan
0
0
2
2
Skupaj
9
3
8
20
99
M. RAI: STATISTIKA
= 10.5.
Povpreni rang: R
Rangi posameznih odgovorov in njihovi odmiki od povprenega:
ai
da
srednje
ne
R(x) (ai )
5
11
.
16 5
R(x) (ai ) R
.
-5 5
.
05
6
bj
R(y) (bj )
.
ga ni
65
.
srednji
15 5
.
moan
19 5
R(y) (bj ) R
-4
5
9
1
.
.
.
9 (5 5)2 + 3 0 52 + 8 62 = 5 296 ,
20
r
1
.
12 (4)2 + 6 52 + 2 92 = 5 020 .
=
20
sR(x) =
sR(y)
Kovarianca rangov:
KR(x) ,R(y)
1
.
.
.
=
8 (5 5) (4) + 1 (5 5) 5 + 0 (5 5) 9 +
20
.
.
.
+ 2 0 5 (4) + 1 0 5 5 + 0 0 5 9 +
+ 2 6 (4) + 4 6 5 + 2 6 9 =
.
= 16 35 .
.
16 35
. .
.
= 0 615 .
= .
.
5 296 5 020
Tokrat torej dobimo zmerno povezanost, a v isto smer kot prej pri tirih tudentih.
Spearmanovo koreliranost testiramo tako kot Pearsonovo, s T -testom na testni statistiki:
T =p
n 2,
1 2
in spet so mone vse tri razliice testa: dvostranska ter enostranska v levo in v desno.
Testiranje Spearmanove koreliranosti je dobra alternativa testiranju Pearsonove koreliranosti, e sumimo, da porazdelitev katere od spremenljivk ni normalna, saj je test
Spearmanove koreliranosti zasnovan na predpostavki normalnosti.
Kot zgled testirajmo pri primeru z 20 tudenti hipotezo, da nezadovoljstvo s telesno
teo in vpliv medijev na samopodobo nista povezana, proti alternativni hipotezi, da se
ljudje, ki mislijo, da imajo mediji veji vpliv na njihovo samopodobo, nagibajo k vejemu
.
nezadovoljstvu s telesno teo in obratno. Postavimo = 0 01. Testna statistika pride
. .
. .
T = 3 31, kar primerjamo s t0.99 (18) = 2 55. Odstopanja so torej statistino zelo znailna.
Z drugimi besedami, ljudje, ki mislijo, da imajo mediji veji vpliv na njihovo samopodobo,
se statistino zelo znailno nagibajo k vejemu nezadovoljstvu s telesno teo (in obratno).
100
3.6
M. RAI: STATISTIKA
Povezanost urejenostne in dihotomne spremenljivke se da meriti s Spearmanovim korelacijskim koecientom (izbrani vrstni red vrednosti dihotomne spremenljivke vpliva le na
predznak). Vendar pa je navadno bolja mera povezanosti dele v razponu ranga.
Za izraun tega koecienta potrebujemo ranirno vrsto vseh vrednosti prve (urejenostne) spremenljivke. Oznaimo z R(a) vezani rang vrednosti a glede na to ranirno vrsto.
Nato podatke razdelimo glede na vrednosti druge (dihotomne spremenljivke), nastaneta
dve skupini. Naj bodo:
x1 , x2 , . . . , x m
vrednosti prve spremenljivke v prvi skupini,
y1 , y2 , . . . , yn
pa vrednosti prve spremenljivke v drugi skupini. Vsaka spremenljivka ima svoj dele v
razponu ranga. Dele v razponu ranga za prvo skupino je:
R(x1 ) + R(x2 ) + + R(xm )
AX =
mn
m(m+1)
2
n(n+1)
2
Vsota obeh je ena: AX + AY = 1, zato zadoa izraunati le enega (splaa se vzeti tisto
skupino, kjer je manj enot).
Medtem ko nam relativni rang pove poloaj elementa v skupini, nam dele v razponu
ranga pove poloaj cele skupine v celotni statistini mnoici.
Lastnosti delea v razponu ranga:
Deniran je vedno.
Velja 0 AX 1.
e sta vrednost urejenostne spremenljivke in skupina neodvisni (na statistini mnoici, iz katere so podatki), je AX = AY = 1/2. Velja tudi, da, e podatki temeljijo
na velikem enostavnem sluajnem vzorcu iz velike populacije, na kateri sta urejenost
in skupija neodvisni, sta AX in AY blizu 1/2 (malo kasneje pri testiranju se bomo
nauili, kako postaviti mejo).
Dele AX je minimalen (enak 0), e so vse vrednosti iz prve skupine
(x1 , . . . , xm ) strogo manje od vseh vrednosti iz druge skupine (y1 , . . . , yn ).
M. RAI: STATISTIKA
101
102
M. RAI: STATISTIKA
da ne
0
0
2
5
1
2
5
0
2
0
10 7
7
7
4
3
10
9
5
15
13
.
2
17
16 5
17
Ane =
54+29
10 7
78
. .
2 =
0 143 ,
103
M. RAI: STATISTIKA
3.7
s2 =
in e ni vezi, je s2 =
posameznih skupinah:
i
1 XX
2
(Rij R)
n i=1 j=1
n2 1
1, R
2, . . . , R
k oznaimo povprene range na
. e zdaj z R
12
n1
2 + n2 ( R
2 R)
2 + + nk ( R
k R)
2.
(R1 R)
n
n
n
104
M. RAI: STATISTIKA
s2B
,
s2
Primer : elimo izmeriti povezavo med poutjem in barvo zgornjega dela oblaila. Za ta
namen vzamemo 20 anketirancev in:
Jih povpraamo, kako se poutijo, pri emer jim damo na voljo 5-stopenjsko lestvico.
To je urejenostna spremenljivka.
Si ogledamo barvo njihovega zgornjega oblaila. Barve razdelimo v tiri kategorije:
temne (rna, rjava, siva, temno modra, vijoliasta), bela, svetle (rumena, rdea,
roza, oranna, zelena, svetlo modra), pisane. To je imenska spremenljivka.
Rezultati ankete:
poutje\barva
zelo slabo
slabo
nevtralno
kar dobro
odlino
Skupaj
Povpreni
rang
temna
0
2
4
4
1
11
.
11 27
bela
0
0
1
1
0
2
.
12 5
svetla
0
1
1
0
0
2
.
5 25
pisana
0
0
4
1
0
5
.
10 1
3
3
2
.
10
13
85
.
6
19
16 5
1
20
20
20
20 + 1
.
= 10 5.
2
Skupna varianca:
i
1h
.
.
.
.
.
.
.
3 (2 10 5)2 + 10 (8 5 10 5)2 + 6 (16 5 10 5)2 + 1 (20 10 5)2 = 28 15 .
s2 =
20
Varianca znotraj skupin (pojasnjena varianca):
i
h
.
. 2
.
. 2
.
. 2
.
. 2 . .
2 . 1
11(11 2710 5) +2(12 510 5) +2(5 2510 5) +5(10 110 5) = 3 525 .
sB =
20
105
M. RAI: STATISTIKA
KruskalWallisov dele pojasnjene variance:
.
. 3 525 . .
2
KW = . = 0 125 .
28 15
Gre torej za nizko povezanost.
12 2
s ,
n+1 B
3.8
imenska
urejenostna
intervalska
Cramrjev V ,
test hi kvadrat
Cramrjev V , Cramrjev V ,
test hi kvadrat test hi kvadrat
dele rel. ranga, KruskalWallis, Spearmanov ,
T -test
inverzijski test test hi hvadrat
r pb ,
T -test
ANOVA,
F -test
Spearmanov ,
T -test
Pearsonov r,
T -test
106
M. RAI: STATISTIKA
Literatura
[1] A. Ferligoj: Osnove statistike na prosojnicah. Ljubljana, 1997.
[2] R. Jamnik: Matematina statistika. DZS, Ljubljana, 1980.
[3] J. A. ibej: Matematika: kombinatorika, verjetnostni raun, statistika. DZS, Ljubljana, 1994.
[4] J. Sagadin: Osnovne statistine metode za pedagoge. FF, Ljubljana, 1992.
[5] M. Blejec: Uvod v statistiko. EF, Ljubljana, 1996.
[6] L. Pfajfar: Statistika 1. EF, Ljubljana, 2005.
[7] F. Arh, L. Pfajfar: Statistika 1 z zgledi. EF, Ljubljana, 2005.
[8] M. Blejec, M. LovreiSarain, M. Perman, M. traus: Statistika. Visoka ola za
podjetnitvo Piran, 2003. Dosegljivo na:
http://valjhun.fmf.uni-lj.si/~mihael/ul/vs/pdfpredavanja/gradiva.pdf
[9] A. Juriic: Verjetnostni raun in statistika. Dosegljivo na:
http://lkrv.fri.uni-lj.si/~ajurisic/stat10/
[10] B. Petz: Osnovne statistike metode. Liber, Zagreb, 1985.
[11] J. A. Rice: Mathematical Statistics and Data Analysis. Thomson/Brooks/Cole, Belmont, 2007.
[12] D. Freedman, R. Pisani, R. Purves: Statistics. Norton&Company, New York, 1998.
[13] A. Ferligoj: Naloge iz statistinih metod. Ljubljana, 1981.
[14] F. Arh, L. Pfajfar: Statistika 1. Zbirka reenih izpitnih nalog. EF, Ljubljana, 2002.
[15] M. R. Spiegel: Schaums outline of theory and problems of statistics. New York, 1999.
107
108
M. RAI: STATISTIKA
Viri
[16] A. Agresti, B. A. Coull: Approximate is better than exact for interval estimation
of binomial proportions. The American Statistician 52 (1998), 119126.
[17] R. B. DAgostino: Tests for the Normal Distribution. V knjigi: R. B. DAgostino,
M. A. Stephens: Goodness-of-Fit Techniques. Marcel Dekker, New York, 1986.
[18] B. Z. Doktorov: George Gallup: Biography and Destiny. Poligraf-Inform, Kaluga,
2011.
[19] D. Freedman, P. Diaconis: On the histogram as a density estimator: L2 theory.
Zeitschrift fr Wahrscheinlichkeit und verwandte Gebiete 57 (1981), 453476.
[20] G. Gallup: The Sophisticated Poll Watchers Guide. Princeton Opinion, Princeton,
1972.
[21] Landon, 1,293,669; Roosevelt, 972,897. Literary Digest 31. 10. 1936, 56.
[22] P. Squire: Why the 1936 Literary Digest Poll failed. The Public Opinion Quarterly
52 (1988), 125133.
109