Statistika PDF

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 109

STATISTIKA

UP FAMNIT, Biopsihologija
Zapiski s predavanj

Martin Rai
NEPOPOLNA PUBLIKACIJA
Datum zadnje spremembe: 8. marec 2016

Kazalo
1. Uvod

1.1

Formalizacija podatkov . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2

Merske lestvice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.3

Nekaj ve o vzorenju

1.4

Nekaj ve o statistinem sklepanju . . . . . . . . . . . . . . . . . . . . . . 15

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2. Obravnava ene statistine spremenljivke: univariatna analiza


2.1

2.2

2.3

2.4

19

Dihotomne spremenljivke . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.1

Povzemanje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.1.2

Tokasto in intervalsko ocenjevanje . . . . . . . . . . . . . . . . . . 20

2.1.3

Testiranje delea . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

Imenske spremenljivke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.1

Frekvenna porazdelitev . . . . . . . . . . . . . . . . . . . . . . . . 30

2.2.2

Tokasto ocenjevanje in test skladnosti . . . . . . . . . . . . . . . . 33

Urejenostne spremenljivke . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.1

Ranirna vrsta, rangi . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.3.2

Kumulativne frekvence . . . . . . . . . . . . . . . . . . . . . . . . . 36

2.3.3

Kvantili . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.3.4

Tokasto ocenjevanje karakteristik . . . . . . . . . . . . . . . . . . . 41

2.3.5

Intervalsko ocenjevanje karakteristik . . . . . . . . . . . . . . . . . 43

2.3.6

Testiranje karakteristik . . . . . . . . . . . . . . . . . . . . . . . . . 44

2.3.7

Primerjava parov: test z znaki . . . . . . . . . . . . . . . . . . . . . 46

Intervalske spremenljivke . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.4.1

Mere centralne tendence . . . . . . . . . . . . . . . . . . . . . . . . 48

2.4.2

Mere razprenosti . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3

M. RAI: STATISTIKA
2.4.3

Standardizacija . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

2.4.4

Zdruevanje vrednosti v razrede . . . . . . . . . . . . . . . . . . . . 53

2.4.5

Normalna (Gaussova) porazdelitev . . . . . . . . . . . . . . . . . . 56

2.4.6

Tokasto ocenjevanje . . . . . . . . . . . . . . . . . . . . . . . . . . 60

2.4.7

Intervalsko ocenjevanje in testiranje . . . . . . . . . . . . . . . . . . 61

3. Povezanost dveh statistinih spremenljivk bivariatna analiza


3.1

3.2

3.3

3.4

71

Povezanost dveh imenskih spremenljivk: asociiranost . . . . . . . . . . . . 72


3.1.1

Vrednotenje asociiranosti . . . . . . . . . . . . . . . . . . . . . . . . 72

3.1.2

Testiranje neasociiranosti . . . . . . . . . . . . . . . . . . . . . . . . 75

Povezanost dveh intervalskih spremenljivk:


koreliranost . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.2.1

Kovarianca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

3.2.2

Pearsonov korelacijski koecient . . . . . . . . . . . . . . . . . . . . 81

3.2.3

Testiranje nekoreliranosti . . . . . . . . . . . . . . . . . . . . . . . . 86

Povezanost intervalske in dihotomne


spremenljivke: primerjava sredin . . . . . . . . . . . . . . . . . . . . . . . . 87
3.3.1

Tokovni biserialni korelacijski koecient . . . . . . . . . . . . . . . 88

3.3.2

Standardizirana razlika povpreij . . . . . . . . . . . . . . . . . . . 90

3.3.3

Testiranje enakosti povpreij . . . . . . . . . . . . . . . . . . . . . . 90

Povezanost intervalske in imenske spremenljivke:


analiza variance z enojno klasikacijo . . . . . . . . . . . . . . . . . . . . . 91
3.4.1

Pojasnjena in nepojasnjena varianca . . . . . . . . . . . . . . . . . 91

3.4.2

Testiranje povezanosti . . . . . . . . . . . . . . . . . . . . . . . . . 94

3.5

Povezanost dveh urejenostnih spremenljivk:


Spearmanova koreliranost . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

3.6

Povezanost urejenostne in dihotomne spremenljivke . . . . . . . . . . . . . 100

3.7

Povezanost urejenostne in imenske


spremenljivke: KruskalWallisova analiza variance . . . . . . . . . . . . . . 103

3.8

Povzetek bivariatne analize . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

Literatura

107

Viri

109

1.
Uvod
Statistika je veda, ki preuuje bolj ali manj mnoine podatke (pojave) ali pa tudi pojme,
ki so motivirani z njimi. Med drugim zajema:
Zbiranje podatkov, torej kako (pri doloenih praktinih, npr. nannih omejitvah)
pravilno zbrati podatke, od katerih lahko priakujemo im natannejo informacijo
o zadevi, ki nas zanima. Pomemben del te veje je teorija vzorenja (angl. sampling).
Primer : elimo vedeti, kdo bo zmagal na volitvah. Nikakor ne moremo povpraati
vseh volivcev, a tudi e bi jih, ni reeno, da nam bodo odgovorili enako, kot bodo
volili, e nam bodo sploh dali odgovor. Ta motnja je toliko veja, kolikor ve asa
je e do volitev. Zato predvolilne ankete niso vedno zanesljive, zelo zanesljive pa so
vzporedne volitve, e se prav izvedejo. Nekaj ve o tem malo kasneje.
Povzemanje podatkov temu pravimo opisna statistika (angl. descriptive statistics).
Primer : kaj vidimo iz naslednjih rezultatov kolokvija:
50, 63, 52, 19, 69, 31, 40, 35, 47, 25, 35, 70, 99, 28, 52, 79, 68, 42, 55, 55, 0, 32, 58, 50, 28, 25, 67, 55, 60, 35, 27, 50, 55, 39, 75, 54,
75, 88, 60, 38, 64, 65, 53, 45, 29, 10, 55, 20, 27, 98, 85, 50, 55, 53, 74, 5, 50, 95, 49, 35, 23, 23, 72, 68, 30, 30, 80, 75, 47, 15, 88, 100,
60, 62, 17, 30, 100, 75, 40, 75, 78, 15, 90, 0, 25, 40, 68, 40, 55, 55, 55, 71, 45, 30, 85, 73, 33, 43, 41, 24, 37, 50, 85, 41, 48, 10, 35, 5,
40, 93, 33, 55, 20, 98, 56, 70, 25, 65, 68, 74, 80, 90, 57, 40, 15, 62, 37, 65, 25, 12, 49

.
Prav dosti e ne! Doloen vtis nam da povpreni rezultat (aritmetina sredina) 50 5,
veliko pa pove tudi histogram:

M. RAI: STATISTIKA
25

20

15

10

09

1019

2029

3039

4049

5059

6069

7079

8089

90100

Tudi povzetku podatkov (npr. povpreju) pravimo kar statistika.


Vrednotenje podatkov temu pravimo inferenna statistika. Njeni najpomembneji
veji sta statistino sklepanje (dajanje sklepov izjav na podlagi dobljenih podatkov,
angl. statistical inference) in statistino odloanje (dajanje navodil, kako ravnati,
da bomo v povpreju imeli najvejo mono korist, angl. decision theory).
Primer : neki drugi kolokvij so pisali v dveh skupinah: A in B. Skupina A je v
.
.
povpreju zbrala 38 38 tok od 72 monih, skupina B pa 30 73 tok. Ali lahko
trdimo, da je skupina A dobila laje naloge? e histogram:
6

A
B

07

815

1623

2439

3239

4047

4855

5663

6472

Tukaj teko kar tako kaj trdimo. Mono je, da je bila skupina A res laja, mono
pa je tudi, da skupino so A pisali bolji tudenti (tudi ne da bi izvajalec kolokvija
to hotel). Tu nam inferenna statistika lahko pomaga, a ni ne moremo trditi z
gotovostjo. Lahko pa sklepanje nastavimo tako, da se zmotimo denimo najve v 5%
primerov. To je osnovna lozoja inferenne statistike.
Glede na zgoraj povedano je jasno, da kot matematino podlago za inferenno statistiko
potrebujemo teorijo verjetnosti. Le-to v zelo veliki meri potrebujemo tudi pri vzorenju
(nekaj ve o tem malo kasneje).

M. RAI: STATISTIKA

1.1

Formalizacija podatkov

Podatki so v statistiki vrednosti ene ali ve statistinih spremenljivk na statistini mnoici.


Statistino mnoico sestavljajo enote. Primeri statistinih mnoic:
e delamo anketo, mnoica anketirancev;
e gledamo vreme po razlinih krajih, nabor vremenskih postaj;
e gledamo spreminjanje cen razlinih artiklov s asom, nabor asov (enote so tako
npr. 15. januar, 15. februar, 15. marec . . . );
tevilo enot imenujemo numerus in ga navadno oznaujemo z n, tudi N .
Statistina spremenljivka je predpis, ki vsaki enoti (potem ko jo pomerimo) priredi
doloeno vrednost. Mnoico vrednosti posamezne spremenljivke imenujemo zaloga vrednosti. Statistine spremenljivke navadno oznaujemo z velikimi tiskanimi rkami s konca
abecede, npr. X, Y , Z, njihove vrednosti pa z malimi rkami. Vrednosti statistine spremenljivke X tako navadno oznaimo z x1 , x2 , . . . , xn . Tako je xi vrednost spremenljivke
X na i-ti enoti statistine mnoice.
Primer : vreme po Sloveniji v ponedeljek, 20. februarja 2012, ob 17. uri:
smer
vetra

hitrost
vetra
(km/h)

Postaja

oblanost

padavine

temperatura
( C)

Kredarica

v oblakih

posamezne
sneinke

13

preteno
oblano

11

oblano

22

Letalie
Edvarda Rusjana
Maribor
Letalie
Joeta Punika
Ljubljana
Letalie Portoro

oblano

Ljubljana

oblano

rahlo
deuje
rahlo
deuje

Tukaj postaja predstavlja enoto, padavine, oblanost, temperatura ter smer in hitrost
vetra pa so spremenljivke.
Vasih ni isto nedvoumno, kaj je statistina mnoica oz. njene enote.
Primer : Recimo, da se vpraamo, koliko prebivalcev je imela v povpreju slovenska obina
dne 1. 1. 2012. Izvleek iz podatkov:

M. RAI: STATISTIKA
Ljubljana 280.607, Maribor 111.550, Kranj 55.451, Koper 53.037, . . . , Hodo 379.
Vseh obin: 211.

V tem primeru je enota obina, spremenljivka pa tevilo prebivalcev. eleno povpreje


izraunamo s formulo:
280.607 + 111.550 + 55.451 + 53.037 + + 379 .
.
= 9741 69 .
211
Drugano vpraanje pa je, v kako veliki obini je v povpreju ivel prebivalec Slovenije.
V tem primeru je statistina mnoica sestavljena iz prebivalcev Slovenije in ima 2.055.496
enot. Na njej lahko deniramo dve spremenljivki: obina, v kateri ivi dani prebivalec,
in tevilo prebivalcev te obine. To je videti priblino takole:
Enota
Obina
t. prebivalcev
Zoran Jankovic
Ljubljana
280.607
. . . e 280.606 drugih Ljubljana
280.607
Franc Kangler
Maribor
111.550
. . . e 111.549 drugih Maribor
111.550
Mohor Bogataj
Kranj
55.451
. . . e 55.450 drugih
Kranj
55.451
Boris Popovic
Koper
53.037
. . . e 53.036 drugih
Koper
53.037
..
..
..
.
.
.
Rudolf Bunderla
Hodo
379
. . . e 378 drugih
Hodo
379
eleno povpreje je zdaj enako:
280.607 280.607 + 111.550 111.550 + 55.451 55.451 + 53.037 53.037 + + 379 379
2.055.494
.
.
= 58.501 74 .
Opazimo, da je vije kot prej, saj imajo zdaj obine z ve prebivalci vejo teo.
Primer : V spodnji tabeli je prikazano tevilo stanovanj glede na velikost v dveh mestnih
obmojih v Sloveniji:1

alec
iri
1

do 20 2140 4160 6180 81100 101 +


29
442
788
351
158
324
5
61
184
197
169
559

Vir: Statistini letopis Republike Slovenije 2012

M. RAI: STATISTIKA

Zanima nas, ali so se velikosti stanovanj v obeh obmojih doloale po istem kljuu.
V tem primeru je enota stanovanje. Populacijo sestavlja 3267 enot, od tega 2092 enot iz
alca in 1175 enot iz irov. Na njej lahko deniramo dve smiselni spremenljivki: velikost
stanovanja, ki ima 6 monih vrednosti in je urejenostna spremenljivka, in mestno obmoje,
ki ima dve moni vrednosti: alec in iri. Slednja spremenljivka je imenska, a je, ker ima
le dve moni vrednosti, tudi dihotomna.
Narobe pa bi bilo to interpretirati kot mnoico 12 enot, 6 iz alca in 6 iz irov,
na katerih bi bila denirana razmernostna spremenljivka, ki bi imela na nai mnoici
vrednosti 29, 442, 788, 351, 158, 324, 5, 61, 184, 197, 169 in 559.

1.2

Merske lestvice

Merska lestvica se v statistiki nanaa na statistino spremenljivko in pomeni, kakno


strukturo imajo vrednosti meritev spremenljivke oz. katere operacije lahko delamo s temi
vrednostmi. Loimo opisne (kvalitativne, atributivne) in tevilske (kvantitativne, numerine) merske lestvice. Opisne lestvice se nadalje delijo na:
Imenske (nominalne), pri katerih gledamo le gole vrednosti, na katerih ni deniranih nobenih operacij. Primeri: barva, politina stranka, rasa, pasma, skupina.
Vasih lahko povemo, katere vrednosti so si blizu oz. sosedne to je pomembno pri
zdruevanju vrednosti v razrede.
Urejenostne (ordinalne), pri katerih lahko povemo, katera vrednost je veja in katera
manja. Primeri: kakovost razpoloenja, in, stopnja izobrazbe, trdota minerala,
odtenek sivine (kadar ocenjujemo na oko). e zlasti pogosto se urejenostne lestvice
pojavljajo pri raznih vpraalnikih, recimo ko imajo anketiranci na vpraanje, kako
so razpoloeni, naslednje mone odgovore:
zelo slabo

slabo

srednje

dobro

zelo dobro

tevilske lestvice pa se delijo na:


Intervalske, pri katerih lahko deniramo razlike med posameznima vrednostma in
jih setevamo, odtevamo ali delimo, medtem ko setevanje, mnoenje in deljenje
samih vrednosti a priori ni denirano oz. smiselno. Intervalske spremenljivke nimajo
vnaprej doloenega izhodia (nile). Lahko torej recimo povemo, da je razlika med
vrednostma a in b dvakratnik razlike med b in c, ni pa recimo smiselno rei, da
je vrednost b dvakratnik vrednosti a. Primeri intervalskih spremenljivk: letnica,
nadmorska viina (v obiajnih okoliinah), temperatura (v obiajnih okoliinah,
ko jo je smiselno gledati v Celzijevih stopinjah, recimo ko je ne povezujemo z energijo
molekul).
Razmernostne, pri katerih lahko vrednosti same setevamo, odtevamo in delimo.
Le-te imajo naravno izhodie (nilo) in lahko recimo povemo, da je vrednost b

10

M. RAI: STATISTIKA
dvakratnik vredosti a. Primeri: mo motorja, dohodek, odtenek sivine (e jo merimo
z instrumentom ali doloimo raunalniko) in tudi temperatura, kadar jo je smiselno
gledati v kelvinih, recimo pri ziki nizkih temperatur (blizu absolutne nile), pri
kinetini teoriji plinov in pri preuevanju zvezd.

Kraje pravimo, da je statistina spremenljivka imenska, urejenostna, intervalska oz. razmernostna, e je izmerjena na imenski, urejenostni, intervalski oz. razmernostni merski
lestvici.
Vsako razmernostno spremenljivko lahko gledamo tudi kot intervalsko, vsako intervalsko kot urejenostno in vsako urejenostno kot imensko. Vendar pa pri tem vedno izgubimo
nekaj informacije. Posebej veliko jo izgubimo, e urejenostno spremenljivko degradiramo
v imensko, zato tega navadno ne ponemo.
Poseben primer merskih lestvic so dihotomne ali tudi binarne, to so take, ki lahko
zavzemajo le dve vrednosti, recimo:

da/ne;
za/proti;
pravilno/nepravilno;
kontrolna/eksperimentalna skupina.

Tudi e je dihotomna lestvica opisna, jo lahko vasih naravno obravnavamo kot tevilsko,
navadno tako, da vrednostma priredimo tevili 0 in 1.
Pri primeru z vremenom so padavine, oblanost in smer vetra imenske spremenljivke,
pri katerih lahko povemo, katere vrednosti so si blizu. Temperatura je intervalska, hitrost
vetra pa je razmernostna spremenljivka.
Smer in hitrost vetra lahko zdruimo v razmernostno vektorsko spremenljivko. Tudi
te so pomembne, a se z njimi ne bomo ukvarjali.
e bi pri oblanosti gledali le, koliko neba ni vidnega (meglo bi torej izenaili z oblanostjo) in tega ne bi kvantitativno merili (recimo v odstotkih), temve bi le loili npr. med
jasnim, delno oblanim, preteno oblanim in oblanim vremenom, bi bila oblanost urejenostna spremenljivka. Dele neba v odstotkih, ki ga zakrivajo oblaki, pa bi bil razmernostna spremenljivka.
Iz padavin je malo teje narediti urejenostno spremenljivko, ki ne bi mogla biti tudi
razmernostna: teko je namre primerjati de in sneg. Najbolj objektivno bi bilo meriti,
koliko milimetrov padavin pade recimo na uro: to bi bila razmernostna spremenljivka.
Glavna razlika med urejenostnimi in intervalskimi lestvicami je ta, da ne moremo
primerjati razkorakov med posameznimi vrednostmi. Zato tudi ne moremo raunati povpreij. Dostikrat sicer urejenostno spremenljivko poviamo v intervalsko, tako da vrednostim priredimo tevilske vrednosti. Rezultati nadaljnje obdelave pa so lahko zavajajoi.
V nekem podjetju bi lahko imeli naslednjo strukturo izobrazbe:

11

M. RAI: STATISTIKA
Nedokonana osnovna ola 70
Osnovna ola
5
Poklicna srednja ola
2
Gimnazija
1
Fakulteta
22

in lahko bi izraunali, da je povprena izobrazba osnovnoolska. e pa bi li fakultetno


izobrazbo podrobneje razlenjevat, bi recimo dobili:
Nedokonana osnovna ola
70
Osnovna ola
5
Poklicna srednja ola
2
Gimnazija
1
Visoka strokovna izobrazba
2
Univerzitetna diploma bolonjske 1. stopnje
0
Univerzitetna diploma po starih programih 0
Univerzitetna diploma bolonjske 2. stopnje
0
Magisterij po starem programu
0
Doktorat
20
in izraunali, da je povprena izobrazba poklicna srednja ola.

1.3

Nekaj ve o vzorenju

Omenili smo e, da dostikrat ne moremo zbrati podatkov na vsej populaciji. Vasih


si tega ne moremo nanno privoiti, vasih (denimo pri testih trkov avtomobilov) pa
merjenje pomeni tudi zino unienje enote in pa ne moremo uniiti vse populacije.
Tako eleno karakteristiko populacije (recimo povpreje neke spremenljivke) ocenimo s
to karakteristiko na vzorcu. Na cilj je dobiti vzorec, pri katerem bi bila karakteristika
kolikor se da blizu karakteristiki na celi populaciji.
Primer : predsednike volitve v ZDA l. 1936. [18, 20] Pomerila sta se Alfred Landon in
Franklin Delano Roosevelt. Pred volitvami je revija Literary Digest izvedla obseno javnomnenjsko raziskavo, ki je zajela 10 milijonov volivcev. Odgovorilo je ve kot 2.300.000
volivcev. lo je za verjetno najveji vzorec v zgodovini. Rezultat je bil 57% za Landona
in 43% za Roosevelta.2 Kdo pa je dejansko zmagal, se ve: v resnici je bilo za Landona
38%, za Roosevelta pa 62% veljavnih glasovnic. [12, 22]3
Natanneje, prilo je 2.376.523 odgovorov, od katerih jih je bilo 1.293.669 za Landona in 972.897 za
Roosevelta, preostalih 109.957 pa jih ni bilo niti za enega niti za drugega. [20, 21]
.
3
Natanneje, za Landona ali Roosevelta je glasovalo 44.434.510 volivcev (priblino 2 7% vseh glasov je
.
.
bilo za druge kandidate), od tega 16.681.862 (37 54%) za Landona in 27.752.648 (62 46%) za Roosevelta.
2

12

M. RAI: STATISTIKA

V istem asu pa je mladi statistik George Gallup povpraal le 50.000 volivcev in dobil
rezultat 44% za Landona in 56% za Roosevelta.4 Kljub veliko manjemu vzorcu je dobil
dosti natannejo oceno, ki je pravilno napovedala zmagovalca. Gallup pa je napovedal
tudi, kaken bo izid raziskave Literary Digesta: iz vzorca 3.000 anketirancev je napovedal,
da bo rezultat 56% za Landona in 44% za Roosevelta. [20] Zmotil se je torej le za odstotek!
Ocena karakteristike doloene spremenljivke na populaciji na podlagi iste karakteristike na vzorcu bo dobra, e bo odloitev, ali je enota izbrana v vzorec ali ne, neodvisna
od vrednosti spremenljivke. Neodvisnost je sicer mono gledati na ve nainov. e
jo gledamo na verjetnostnem prostoru, ki zajema populacijo in v katerem so vse enote
enako verjetne, neodvisnost pomeni natanno napoved delea: e je recimo A dogodek,
da sluajno izbrani volivec voli Landona, in B dogodek, da je volivec izbran v vzorec,
neodvisnost dogodkov A in B pomeni, da je P(A | B) = P(A): prvo je dele anketiranih
volivcev, ki volijo Landona, drugo pa dele vseh volivcev, ki volijo Landona. A tovrstno
neodvisnost je v praksi nemogoe dosei: e bi jo hoteli zagotoviti, bi morali preesati
celotno populacijo. Da pa se jo dosei vsaj priblino ali pa v irem pomenu, kot bomo
videli malo kasneje.
Literary Digest je bil od elene neodvisnosti vsekakor zelo dale, njegov vzorec je bil
mono pristranski. Zakaj? Literary Digest je ankete po poti poiljal svojim naronikom, telefonskim naronikom, imetnikom avtomobilov, lanom raznih elitnih klubov in
podobno, skratka volivcem, ki jih je bilo lahko izbrskati. Toda biti naroen na Literary
Digest, imeti telefon ali avto ali biti lan elitnega kluba je v tistem asu pomenilo biti
dobro situiran, politina opredelitev pa je lahko zelo odvisna od socialnega poloaja. Spomnimo, da je bil to as velike gospodarske krize, ko je bilo biti dobro situiran e teje kot
sicer. Huda teava raziskave Literary Digesta je bila tudi velika neodzivnost, saj je na
anketo odgovorilo le 23% vpraanih. Tudi dejstvo, ali se je kandidat odzval na anketo ali
ne, je lahko zelo povezano z vrednostjo spremenljivke, ki nas zanima, zato je neodzivnost
lahko znaten vir pristranskosti.
Kako dosei vsaj priblino neodvisnost izbire enote v vzorec in vrednosti spremenljivke,
ki nas zanima? Eden od nainov, kjer to doseemo v veliki meri, je sistematino vzorenje,
kjer enote otevilimo, nakar v vzorec vzamemo recimo vsako deseto enoto. A tudi tu se
lahko skrivajo pasti: e elimo recimo oceniti, koliko ljudi v povpreju v eni uri preka
Titov trg v Kopru in to naredimo tako, da jih tejemo 24 nedelj zapored med 6. in 7. uro
zjutraj, ocena ne bo dobra.5
Preizkuen nain za doseg neodvisnosti je vpeljava sluaja v vzorni nart: odloitev,
katere enote vzeti v vzorec, je sluajna. Temu pravimo verjetnostno vzorenje. Povedano
slikovito, pri tem vzorenju meemo kocko. e je pravilno izvedeno, je zagotovljena
neodvisnost v irem smislu, ko verjetnostni prostor vkljuuje tako populacijo kot tudi
sluaj, na podlagi katerega vzorimo. V tem primeru se priakovani dele na vzorcu
.
.
Natanneje, 44 3% za Landona in 55 7% za Roosevelta.
5
Ta raziskava sicer ne pae isto v paradigmo populacija vzorec, a v dovolj dobrem pribliku lahko
vzamemo, da so enote enourni intervali v doloenem obdobju, spremenljivka pa je tevilo ljudi, ki v
posameznem intervalu prekajo Titov trg. e tejemo vsako nedeljo ob isti uri, to pomeni, da v vzorec
vzamemo vsako 168. enoto, se pravi, da gre za sistematino vzorenje.
4

M. RAI: STATISTIKA

13

ujema s tistim na populaciji; z drugimi besedami, vzorni dele je nepristranska cenilka


populacijskega. e so izpolnjeni e doloeni dodatni pogoji, se vzorni dele z veanjem
vzorca blia populacijskemu; to blianje velja ne glede na velikost populacije. Podobno
se da zakljuiti e za vrsto drugih karakteristik, npr. za aritmetino sredino.
Najpreprosteji primer verjetnostnega vzorenja, kjer je prej omenjena neodvisnost
skupaj z dodatnimi pogoji izpolnjena, je enostavno sluajno vzorenje. To pomeni, da so
vsi moni vzorci enako verjetni. Na populaciji velikosti 6 npr. obstaja 20 vzorcev velikosti
3:
{1, 2, 3} {1, 2, 4} {1, 2, 5} {1, 2, 6} {1, 3, 4}
{1, 3, 5} {1, 3, 6} {1, 4, 5} {1, 4, 6} {1, 5, 6}
{2, 3, 4} {2, 3, 5} {2, 3, 6} {2, 4, 5} {2, 4, 6}
{2, 5, 6} {3, 4, 5} {3, 4, 6} {3, 5, 6} {4, 5, 6}

Povedano bolj po domae, e bo steklenica vselej dobro pretresena, bodo nae napovedi v
povpreju tone. Seveda bodo napovedi toliko bolj tone, kolikor veji bo vzorec in kolikor
manj raznolika bo spremenljivka, ki nas zanima. e ocenjujemo dele enot z doloeno
lastnostjo
in ta dele ni preblizu 0 ali 1, je tipina napaka, ki jo naredimo, reda velikosti

1/ n.

.
Primer . Za vzorec velikosti 2 3 milijona, kot ga je vzela revija Literary Digest, predvideni
.
red velikosti napake znaa priblino 0 00066. To je znatno manj od dejanske napake, ki
.
je znaala 0 19. Vzorec, ki ga je pri predsednikih volitvah v ZDA leta 1936 vzela revija
Literary Digest, torej e malo ni bil reprezentativen.
A tudi pri Gallupovem vzorcu velikosti 50.000 predvideno red velikosti napake znaa
.
.
priblino 0 0045, kar je kar nekajkrat manj od dejanske napake 0 06. Torej se je tudi
Gallup odrezal slabe kot pri enostavnem sluajnem vzorenju. Vsekakor pa je dosegel
vejo reprezentativnost kot Literary Digest. Ta revija se je kmalu po omenjenih volitvah
znala v steaju.
e en primer . Drugi krog predsednikih volitev v Sloveniji 2. 12. 2012
Delo Stik 27.29. 11. 2012: Pahor 55%, Trk 24%, ne vem 21%, n = 786.
.
.
Vzporedne volitve (Mediana): Pahor 67 03%, Trk 32 97%, n = 11.629.
.
.
Uradni rezultat: Pahor 478.859 (67 37%), Trk 231.971 (32 63%).
e preraunamo rezultate dela Stik le na tiste, ki so se opredelili, dobimo Pahor 70%,
.
.
Trk 30% (zaokroeno na 1%). Predvideni red velikosti napake za 0 79 786 = 621
.
.
volivcev znaa priblino 0 04. To je ve od dejanske napake, ki znaa priblino 0 03. Pri
.
vzporednih volitvah je predvideni red velikosti napake znaal 0 0093 in je bil spet veji
.
od dejanske napake 0 0034.
Enostavno sluajno vzorenje je torej uinkovito, zahteva pa popoln pregled nad celotno
populacijo in popolno dostopnost do nje. Na voljo moramo imeti npr. register prebivalstva,
poleg tega pa tudi zagotovljen odziv. To velja tudi za sistematino vzorenje.

14

M. RAI: STATISTIKA

Dostikrat pa nad celotno populacijo nimamo pregleda, lahko pa populacijo razdelimo


na ve delov in doseemo popoln pregled nad poljubnim njenim delom (storiti to za vse
njene dele pa bi bilo predrago). e npr. izvajamo raziskavo med oskrbovanci domov za
stareje obane, bomo morda lahko v vsakem dobili seznam oskrbovancev, prav tako tudi
seznam vseh domov starejih obanov v Sloveniji, skupaj s tevili oskrbovancev. Nimamo
pa dovolj sredstev, da bi se odpravili v vse domove, temve se odpravimo le v nekaj
domov. V tem primeru bomo vzorenje izvedli v dveh fazah: najprej bomo izbrali seznam
domov, ki jih bomo obiskali (morda bomo pri tem upotevali tudi, koliko oskrbovancev
imajo), nato pa bomo v vsakem od domov, ki ga bomo zajeli v raziskavo, poizvedeli po
seznamu oskrbovancev in vzeli enostavni sluajni vzorec. Morda bomo oskrbovance pred
tem razdelili e glede na spol, psihozino stanje in podobno. Pri tem mora biti vnaprej
znano, kako bomo ravnali v vsaki situaciji, na katero naletimo (toliko in toliko dementnih,
neodziv itd.) Temu pravimo vzorni nart.
Zgoraj opisanemu postopku pravimo straticirano vzorenje. Gre za to, da populacijo
razdelimo na ve podpopulacij, ki jim pravimo stratumi. Za vsak stratum predpiemo,
kakno nadaljnje vzorenje bomo izvedli na njem, med drugim tudi, koliko enot bo obsegal
ustrezni podvzorec.
Stratume lahko opiemo tudi z vrednostmi doloene statistine spremenljivke: stratumov je toliko, kolikor je njenih vrednosti. Tako spremenljivka spol doloa dva stratuma.
Ni pa nezmonost popolnega pregleda nad celotno populacijo edini razlog za straticirano vzorenje. Dostikrat so doloene spremenljivke, nad katerimi imamo pregled (kontrolirane spremenljivke), mono povezane s spremenljivko, ki jo merimo. Znano je, da se
ivljenjski slog po razlinih regijah Slovenije razlikuje, kar mono vpliva na zdravje. Na
veliko stvari mono vpliva spol. Zato poskuamo dosei, da so enote im bolj nepristransko zastopane. To poskuamo dosei tako, da se porazdelitve kontroliranih spremenljivk
na vzorcu ujemajo s tistimi na populaciji. Drugae povedano, vzorec mora im bolje
odslikovati celotno populacijo. Pravimo, da je vzorec reprezentativen. Tako lahko znatno
izboljamo natannost, e posebej, e imamo majhen vzorec. Seveda opazovana spremenljivka ni natanno doloena s kontroliranimi. A e privzamemo, da je dodatni vpliv
na doloen nain neodvisen, je vzorni dele enot z doloeno vrednostjo nepristranska
ocena populacijskega. Podoben sklep lahko naredimo tudi za povpreje in celo za celotno
porazdelitev spremenljivke.
Primer . V veliki populaciji je polovica ensk in polovica mokih. e vzamemo enostavni
sluajni vzorec velikosti 10, je verjetnost, da je mokih ali ensk manj kot etrtina, enaka:


+ 10
1 + 10
7
.
2
1
2
=
= 0 109 .
10
2
64
Na vzorcu velikosti 100 pa je verjetnost tako neposreene zastopanosti le e priblino
.
1 8 107 .
Opomba. e so dejavniki, ki vplivajo na spremenljivko, ki jo merimo, bolj raznoliki, je
verjetnost ekscesov veja. Z drugimi besedami, vzeti moramo veji vzorec, da smo varni,
ali pa te dejavnike kontrolirati.

M. RAI: STATISTIKA

15

Primer . Straticirano vzorenje se izvede tudi pri vzporednih volitvah, in sicer v v kombinaciji s sistematinim: najprej se izbere vzorec voli, nato pa na izbranih voliih izvedejo
sistematino vzorenje.

1.4

Nekaj ve o statistinem sklepanju

Pri opisni statistiki se osredotoimo le na podatke, ki jih imamo (na to, kar opazimo)
in poskusimo narediti smiseln povzetek. Pri inferenni statistiki pa gledamo podatke
kot del neesa vejega, esar ne poznamo v celoti. Tipien primer je vzorec iz populacije:
vrednosti statistine spremenljivke na vzorcu poznamo, na celotni populaciji pa ne. To pa
ni edina monost. Regresijska analiza se npr. ukvarja z napovedjo dogajanja v prihodnosti
na podlagi podatkov iz preteklosti.
V splonem gre pri inferenni statistiki za to, da opazimo X, eleli pa bi povedati kaj
o Y (statistino sklepati ).6 Omenili bomo tri vrste sklepanja:
Tokasto ocenjevanje, pri katerem sestavimo algoritem, ki nam za vsako opaanje X
vrne oceno Y Y . Pri tem mora biti koliina Y opazljiva (deterministino doloena
z opaanjem X), eleli pa bi narediti im manjo napako. Koliini Y pravimo cenilka
za Y .
Primer : glede na anketo Dela Stik ocenimo, da bo na volitvah priblino 70% veljavnih glasovnic za Pahorja (oceno smo zaokroili na 1%).
Intervalsko ocenjevanje, pri katerem poskusimo Y umestiti v opazljiv interval, npr.
Ymin < Y < Ymax . Intervalu (Ymin , Ymax ) pravimo interval zaupanja. Seveda morata
biti meji intervala Ymin in Ymax opazljivi. e o Y nimamo popolne informacije, izjava
Ymin < Y < Ymax tipino ni vedno pravilna, da pa se kontrolirati verjetnost tega
statistinega sklepa. elimo dosei dvoje:
irina intervala naj bo im manja.
Verjetnost, da je res Ymin < Y < Ymax (verjetnost pokritosti), naj bo v vsakem
primeru vsaj .
.
Parametru pravimo stopnja zaupanja. Tipini stopnji zaupanja sta = 0 95 in
.
= 0 99.
Namesto stopnje zaupanja lahko povemo tudi stopnjo tveganja = 1 . Prej
.
omenjenima tipinima stopnjama zaupanja torej ustrezata stopnji tveganja = 0 05
.
in = 0 01. Stopnja tveganja torej pomeni verjetnost, da se bomo pri sklepanju
zmotili.
V teoriji X in Y predstavimo kot sluajni spremenljivki na istem verjetnostnem prostoru, ki pa nima
nujno znane verjetnostne mere. Temu pravimo statistini model. e je porazdelitev vendarle znana,
modelu pravimo bayesovski. S takimi modeli se ukvarja bayesovska statistika. Tako jo imenujemo zato,
ker temelji na Bayesovi formuli.
6

16

M. RAI: STATISTIKA
Primer : glede na anketo Dela Stik pri stopnji zaupanja 95% (oz. stopnji tveganja
.
.
5%) pred volitvami ocenimo, da bo Pahor dobil med 66 3% in 73 6% glasov.
Testi znailnosti, pri katerem o Y postavimo neko hipotezo (domnevo), npr. Y = y .
Tej hipotezi navadno pravimo nielna hipoteza in jo oznaimo s H0 . Nasprotje
nielne hipoteze je alternativna hipoteza in jo navadno oznaimo s H1 . Test za vsako
opaanje pove, ali nielno hipotezo zavrnemo in sprejmemo alternativno hipotezo
ali pa ne naredimo niesar. elimo dosei dvoje:
H0 naj se zavrne v imve primerih, ko ne velja.
Verjetnost dogodka, da nielno hipotezo zavrnemo, ko velja, naj bo v vsakem
primeru najve . Omenjenemu dogodku pravimo napaka prve vrste (napako
druge vrste bomo denirali malo kasneje).
Parametru pravimo stopnja znailnosti. e nielno hipotezo zavrnemo pri stopnji
.
znailnosti = 0 05, pravimo, da so odstopanja statistino znailna. e pa jo
.
zavrnemo pri = 0 01, pa, da so statistino zelo znailna.
Stopnja znailnosti pove, koliko smo pogumni pri zavraanju nielne hipoteze.
Pri istem opaanju bomo pri velikih nielno hipotezo zavrnili, pri majhnih pa ne.
Mejni stopnji znailnosti, ki loi zavrnitev nielne hipoteze od nezavrnitve, pravimo
p-vrednost. Ta je denirana za vsako opaanje pri doloenem testu. Povrno povedano je to maksimalna verjetnost, da bomo pri veljavnosti nielne hipoteze opazili
nekaj tako ali pa e bolj udnega kot pri aktualnem opaanju. Odstopanja so stati.
stino znailna, e je p-vrednost manja od 0 05, in zelo znailna, e je p-vrednost
.
manja od 0 01.
Primer : Loterija Slovenije trdi, da je polovica srek dobitnih. Kupimo 8 srek in
samo dve zadeneta. V tem primeru ima smisel testirati nielno hipotezo, da je
res polovica vseh srek dobitnih, proti alternativni, da je dobitnih manj kot polovica srek. p-vrednost lahko dobimo kot verjetnost, da izmed 8 srek zadeneta dve
ali manj, ob predpostavki, da je verjetnost, da je sreka dobitna, enaka 1/2. Ta
verjetnost je enaka:


1 + 81 + 82 .
.
p=
= 14 5% ,
8
2
torej odstopanja niso statistino znailna. Ne moremo torej sklepati, da Loterija
goljufa.
Primer : Testiramo nielno hipotezo, da je bilo vzorenje pri anketi Dela Stik nepristransko, proti alternativni hipotezi, da je bilo pristransko. Podobno lahko storimo
za vzporedne volitve. Vzorec iz ankete Dela Stik ima glede na dejanske rezultate
.
volitev p-vrednost 0 232. Pri Gallupovi anketi o izidu predsednikih volitev v ZDA
leta 1936 pa p-vrednost pride manj kot 10100 . Torej je tudi Gallup vzoril pristransko (statistino zelo znailno), eprav je pravilno napovedal zmagovalca. No, tudi
Gallup ni v vseh svojih raziskavah napovedal prav.

M. RAI: STATISTIKA

17

Pomembno: nielne hipoteze nikoli ne sprejmemo! Pri primeru z Loterijo nismo


rekli, da je Loterija potena, rekli smo le, da ne moremo rei, da ni potena. Opaanje,
da sta zadeli 2 sreki od 16, namre podobno kot od situacije, ko je Loterija potena,
.
odstopa tudi od situacije, ko sreka zadene z verjetnostjo 49 9%. V slednji situaciji pa
nielna hipoteza ne velja.
Dogodku, da nielno hipotezo sprejmemo, eprav ne velja, pravimo napaka druge vrste.
To napako je teko ali celo nemogoe kontrolirati, zato pri testih znailnosti raje pravimo,
da ne moremo rei niesar, kot pa da storimo napako druge vrste.
Kako izraunati vse navedeno, bomo spoznali v naslednjem poglavju.

18

M. RAI: STATISTIKA

2.
Obravnava ene statistine
spremenljivke: univariatna analiza
2.1
2.1.1

Dihotomne spremenljivke
Povzemanje

Pri dihotomnih spremenljivkah lahko podatke v glavnem povzamemo na dva naina:


S frekvencama, ki povesta, koliko enot v statistini mnoici ima eno in koliko drugo
vrednost. Denimo, v predavalnici je 35 sluateljev, od tega 19 ensk in 16 mokih.
Formalno bomo tevilo enot z doloeno lastnostjo oznaevali z znakom . e spremenljivko oznaimo z X, vrednosti pa z a in b, sta frekvenci (X = a) in (X = b).
Z relativnima frekvencama oz. deleema (X = a)/n in (X = b)/n. Delee esto
povemo v odstotkih. V prejnjem primeru je bilo med sluatelji v predavalnici (do
.
.
zaokroitve natanno) 54 3% ensk in 45 7% mokih.
Grano podatke najpogosteje prikaemo s tortnim grakonom (e ga nariemo na
.
roko, potrebujemo kotomer dele p ustreza kotu p 360 0 ):

moki
.
45 7%

enske
.
54 3%

19

20

M. RAI: STATISTIKA

Lahko pa jih prikaemo tudi s histogramom:


100%

75%

50%

25%

0%

2.1.2

enske

moki

Tokasto in intervalsko ocenjevanje

Oceniti elimo dele enot v populaciji, ki imajo dano lastnost. Ta dele bomo oznaili s
. Na voljo pa imamo vzorec iz n enot, kjer jih ima nao lastnost natanko f .
Privzeli bomo naslednje:
Populacija je velika.
Vzorec je enostavni sluajni.
Tedaj je jasno, da populacijski dele tokasto ocenimo z vzornim deleem. Cenilka za
je torej:
f
= .
n
Primer . Za oddajo Moja Slovenija, ki je bila dne 2. marca 2013 na sporedu na RTV Slovenija, so 100 Slovencev (mokih) med 15. in 75. letom starosti povpraali, ali nameravajo
za 8. marec enski, ki jim je blizu (eni, partnerici, materi), podariti cvet. Pritrdilno
.
jim je odgovorilo 85. Torej je n = 100, f = 85 in izraunamo = f /n = 0 85 = 85%.
Na podlagi ankete torej ocenimo, da priblino 85% vseh mokih v Sloveniji med 15. in
75. letom starosti enski, ki jim je blizu, podari cvet. Bolj formalno, e je dele vseh
Slovencev med 15. in 75. letom starosti, ki namerava enski, ki jim je blizu, podariti cvet,
.
ocenimo 0 85.
e en primer : anketa Dela Stik v zvezi z drugim krogom predsednikih volitev v Sloveniji
dne 2. 12. 2012, ki je bila izvedena v dneh 27.29. 11. 2012: za Pahorja se je opredelilo
55%, za Trka 24% vpraanih, 21% pa jih je bilo neopredeljenih. Tedaj za n postavimo
tevilo opredeljenih, za f pa tevilo tistih, ki so se opredelili za Pahorja. Tonih podatkov
.
.
.
.
al ni na voljo, glede na razpololjivo pa je priblino n = (0 55 + 0 25)m = 0 79 m in

21

M. RAI: STATISTIKA

. .
f = 0 55 m, kjer je m tevilo vpraanih. Torej dele glasov na volitvah za Pahorja, ki ga
oznaimo s , ocenimo z:
.
55 . .
. f . 0 55 m

= = .
=
= 0 70 .
n
0 79 m
79
Orodja, ki so predstavljena v nadaljevanju, pa ne delujejo le za zgoraj opisano paradigmo populacija vzorec, temve tudi za neodvisne poskuse: privzamemo, da vsak poskus
uspe z verjetnostjo . Izvedemo n neodvisnih poskusov in f jih je uspelo. Poskusi torej
odgovarjajo enotam v vzorcu, nimamo pa populacije v pravem pomenu: namesto nje in
vzorenja je kar verjetnostni prostor.
Primer . Niso vsi kovanci poteni: to je odvisno tudi od naina metanja. e 50-krat
vremo kovanec in 38-krat pade grb, bomo ocenili, da na tem kovancu pri tem nainu
metanja grb pade z verjetnostjo priblino 38/50 = 76%.
Intervalsko ocenjevanje pa je nekoliko bolj zapleteno. Konstrukcij intervalov zaupanja
je celo ve in ne odgovarjajo vse glavni zahtevi po pokritosti, t. j. da je verjetnost, da je
populacijsko povpreje res v intervalu zaupanja, enaka (najmanj) stopnji zaupanja .
Veina konstrukcij temelji na Waldovem intervalu zaupanja, ta pa temelji na normalni
(Gaussovi porazdelitvi), zato potrebujemo kvantil c := z(1+)/2 normalne porazdelitve za
verjetnost (1 + )/2.1 V statistiki uporabljamo predvsem stopnji zaupanja 95% in 99%
in iskana kvantila za ti dve stopnji sta:
= 95% :
= 99% :

. .
c = z0.975 = 1 96 ,
. .
c = z0.995 = 2 58 .

Nato izraunamo:
SE =

(1
,
n

min = c SE ,

max = + c SE .

Interval zaupanja je min < < max . Koliini SE pravimo standardna napaka. Ta pove
velikostni red odstopanja vzornega delea od populacijskega.
Primer : anketa iz oddaje Moja Slovenija, kjer je 85 od 100 mokih odgovorilo, da namerava enski, ki jim je blizu, podariti cvet. e postavimo = 95%, dobimo:
r .
.
0 85 0 15 . .
.
SE =
= 0 03571 ,
100
. .
. .
. .
. .
.
.
.
.
min = 0 85 1 96 0 03571 = 0 78 , max = 0 85 + 1 96 0 03571 = 0 92 .
e je Z standardna normalna sluajna spremenljivka, je potem P(Z < c) = (1 + )/2, od koder sledi
P(c < Z < c) = , kar potrebujemo.
1

22

M. RAI: STATISTIKA

Pri stopnji zaupanja 95% torej ocenimo, da namerava med 78% in 92% mokih v dani
kategoriji enski, ki jim je blizu, podariti cvet. Spodnjo mejo smo zaokroili navzdol,
zgornjo pa navzgor.
e bi postavili = 99%, pa bi dobili:
. .
. .
.
.
min = 0 85 2 58 0 03571 = 0 75 ,

. .
. .
.
.
max = 0 85 + 2 58 0 03571 = 0 95 .

al pa Waldov interval zaupanja ne zagotavlja deklarirane verjetnosti, da je populacijski dele res notri. To se zgodi zaradi napake pri aproksimaciji z Gaussovo porazdelitvijo.
Obstaja veliko popravkov, ki so natanneji, in tudi konstrukcija, ki sicer zagotavlja deklarirano verjetnost, a je malo teje izraunljiva.2 Dober kompromis je AgrestiCoullova
konstrukcija [16]. Pri tej izraunamo:
s
c2

f+ 2
f = (1 ) , min = c SE
f , max = + c SE
f.
n
= n + c2 , =
, SE
n

Primer : spet anketa iz oddaje Moja Slovenija, kjer je 85 od 100 mokih odgovorilo, da
namerava enski, ki jim je blizu, podariti cvet. e postavimo = 95%, dobimo:
.
.
. 85 + 1 962 /2 . .
.
.
n
= 100 + 1 962 = 103 84 , =
= 0 83705 ,
.
103
84
r .
.
0 83705 0 16295 . .
.
f
= 0 03624 ,
SE =
.
103 84
. .
. .
. .
. .
.
.
.
.
min = 0 83705 1 96 0 03624 = 0 766 , max = 0 83705 + 1 96 0 03624 = 0 909 .
.
.
Pri stopnji zaupanja 95% torej zdaj ocenimo, da namerava med 76 6% in 90 9% mokih v
dani kategoriji enski, ki jim je blizu, podariti cvet. Spodnjo mejo smo zaokroili navzdol,
zgornjo pa navzgor.
e pa bi vzeli = 99%, bi dobili:

min

.
. 85 + 2 582 /2 . .
. 2 .
.

= 0 82813 ,
n
= 100 + 2 58 = 106 66 , =
.
106 66
r .
.
0 82813 0 17187 . .
.
f
SE =
= 0 03653 ,
.
106 66
. .
. .
. .
. .
.
.
.
.
= 0 82813 2 58 0 03653 = 0 733 , max = 0 82813 + 2 58 0 03653 = 0 923 .

Opomba. Vija kot je stopnja zaupanja, iri mora biti interval zaupanja: e elimo, da
bo naa napoved z vejo verjetnostjo pravilna, moramo biti bolj ohlapni. Edini interval
zaupanja s stopnjo zaupanja 100% je interval [0, 1], to pa je seveda neuporabno. Sprejeti
moramo torej kompromis med natannostjo in zanesljivostjo.
AgrestiCoullov interval zaupanja je pomaknjen
Opomba. Koliina ni isto enaka :
f manekoliko stran od kraji 0 in 1. Prav tako se modicirana standardna napaka SE
lenkost spreminja z , medtem ko je nemodicirana standardna napaka SE neodvisna od
.
2

To je ClopperPearsonov interval zaupanja.

M. RAI: STATISTIKA

23

Tudi AgrestiCoullov interval nam sicer ne zagotavlja v vsakem primeru verjetnosti


pokritosti vsaj , toda verjetnost pokritosti se pri vsakem blia , ko se n vea. Blianje
je e hitreje, e gledamo povpreno verjetnost pokritosti, ko pretee doloen interval.
Le-ta je zelo blizu e za majhne n. V okviru nae natannosti bomo vzeli, da se sme
AgrestiCoullov interval uporabiti, e je n 30, f > 10 in n f > 10. Pri manjih (oz.
vejih frekvencah) je potrebno uporabiti druge konstrukcije. Za n max{10, f 2 } se lahko
posluimo naslednje tabele (vedno gledamo vrednost z majhno frekvenco):
.
.
= 0 95
= 0 99
f
min
max
f
min
max
.
.
0
0
3 45/n
0
0
4 94/n
.
.
.
.
1 0 025/n 5 58/n
1 0 005/n 7 43/n
.
.
.
.
2 0 242/n 7 24/n
2 0 103/n 9 28/n
.
.
.
.
3 0 618/n 8 77/n
3 0 337/n 11 0/n
.
.
.
.
4 1 08/n 10 3/n
4 0 672/n 12 6/n
.
.
.
.
5 1 62/n 11 7/n
5 1 07/n 15 7/n
.
.
.
.
6 2 20/n 13 1/n
6 1 53/n 17 2/n
.
.
.
.
7 2 81/n 14 5/n
7 2 03/n 18 6/n
.
.
.
.
8 3 45/n 15 8/n
8 2 57/n 20 0/n
.
.
.
.
9 4 11/n 17 1/n
9 3 13/n 21 4/n
.
.
.
.
10 4 79/n 18 4/n
10 3 71/n 22 8/n
Pojasnilo. tevilke so dobljene iz kvantilov porazdelitve hi kvadrat: e je 2
hi kvadrat z m prostostnimi
p (m) kvantil porazdelitve


2
1
1 2
stopnjami za verjetnost p, za velike n interval zaupanja pride 2n
(1)/2 (2f ), 2n (1+)/2 (2f + 2) , e je f > 0. Pri f = 0 pa se izkae,
h

h

2
1 2
1
da je potrebno vzeti 0, 2n
0.025 (16) pri = 0.95 in 0, 2n 0.005 (24) pri = 0.99.

e en primer : prej omenjena anketa Dela Stik v zvezi z drugim krogom predsednikih
volitev v Sloveniji. Toni podatki sicer niso na voljo, a v okviru danih (poleg e omenjenih
deleev potrebujemo e, da je bilo vpraanih m = 786 volivcev) bo smiselno postaviti
.
.
.
.
0 79m = 621 =: n in 0 55m = 432 =: f . Pri = 95% dobimo:
.
. 432 + 1 962 /2 . .
. 2 .
.

n
= 621 + 1 96 = 624 84 , =
= 0 69445 ,
.
624 84
r .
.
0 69445 0 30555 . .
.
f
= 0 01843 ,
SE =
.
624 84
. .
. .
. .
. .
.
.
.
.
min = 0 69445 1 96 0 01843 = 0 658 , max = 0 69445 + 1 96 0 01843 = 0 731 .
Pri = 99% pa dobimo:

min

.
. 432 + 2 582 /2 . .
. 2 .
.

= 0 69358 ,
n
= 621 + 2 58 = 627 66 , =
.
627 66
r .
.
0 69358 0 30642 . .
.
f
= 0 01840 ,
SE =
.
627 66
. .
. .
. .
. .
.
.
.
.
= 0 69358 2 58 0 01840 = 0 646 , max = 0 69358 + 2 58 0 01840 = 0 742 .

Torej bi na podlagi ankete pri stopnji zaupanja 95% napovedali, da bo za Pahorja glasovalo
.
.
.
med 65 8% in 73 1% volivcev. Pri stopnji zaupanja 99% pa bi bila ta napoved med 64 6%
.
in 74 2%.

24

M. RAI: STATISTIKA

Primer : vzporedne volitve pri drugem krogu predsednikih volitev v Sloveniji. isto toni
podatki spet niso na voljo, a vemo, da so vpraali n = 11.629 volivcev, med katerimi se jih
.
.
.
.
je 67 03% opredelilo za Pahorja in 32 97% za Trka. Postavimo 0 670311629 = 7795 =: f .
Pri = 99% dobimo:
.
. 7795 + 2 582 /2 . .
.
. 2 .

= 0 670210 ,
n
= 11629 + 2 58 = 11635 7 , =
.
11635 7
r .
.
0 670210 0 329790 . .
.
f
= 0 004358 ,
SE =
.
11635 7
. .
. .
.
.
min = 0 670210 2 58 0 004358 = 0 6589 ,
. .
. .
.
.
max = 0 670210 + 2 58 0 004358 = 0 6815 .
Na podlagi vzporednih volitev bi torej pri stopnji zaupanja 99% napovedali, da bo za
.
.
Pahorja glasovalo med 65 89% in 68 15% volivcev.
.
V resnici je na volitvah za Pahorja glasovalo 67 37% volivcev, kar je v vseh intervalih
zaupanja, ki smo jih obravnavali.
Omenili smo e teave pri doseganju verjetnosti pokritosti in e, da se ta hitreje blia
, e gledamo povpreje, ko pretee doloen interval. e torej naredimo veliko raznolikih
poskusov in pri vsakem doloimo interval zaupanja, bo dele poskusov, pri katerih bo
res v intervalu zaupanja, enak priblino . Vasih pa smo bolj previdni in elimo imeti
eleno verjetnost pokritosti doseeno tudi za manj raznolike poskuse. V tem primeru
interval zaupanja na vsaki strani razirimo za 1/(2n), torej doloimo:
f 1 ,
min = p c SE
2n

f+ 1 .
max = p + c SE
2n

Temu pravimo popravek za zveznost. e ga uporabimo, v povpreju dobimo vejo verjetnost pokritosti kot deklarirano . Za tak interval zaupanja pravimo, da je konservativen.
Primer : pri anketi oddaje Moja Slovenija je 95%-interval zaupanja za dele mokih, ki
.
.
nameravajo enski, ki jim je blizu, za 8. marec podariti cvet, priel od 0 766 do 0 909. e
dodamo e popravek za zveznost, interval na vsaki strani razirimo za 1/200 in dobimo
.
.
interval od 0 761 do 0 914.
e en primer : pri vzporednih volitvah je bilo anketiranih 11.629 volivcev. Interval zau.
.
panja se na vsaki strani raziri za 1/23258 < 0 00005 = 0 005%, kar je zanemarljivo.

2.1.3

Testiranje delea

Tako kot v prejnjem razdelku naj bo tudi tu dele enot v populaciji z doloeno lastnostjo. Privzamemo, da je populacija velika, in iz nje vzamemo enostavni sluajni vzorec,
za katerega pa je tudi dobro, da je dovolj velik test, ki ga bomo obravnavali, je namre
le priblien. Za minimalno razumno natannost moramo privzeti, da je tako n 5 kot
tudi n(1 ) 5.

25

M. RAI: STATISTIKA

Testiramo nielno hipotezo, da je = . Obravnavali bomo tri alternativne hipoteze:


da je 6= , da je > in da je > . Pri prvi alternativni hipotezi pravimo, da gre
za dvostranski test, pri drugih dveh pa, da gre za enostranski test (v desno oz. v levo).
Tako kot v prejnjem razdelku naj ima vzorec velikost n in naj bo v njem f enot
z dano lastnostjo. Spet oznaimo := f /n. Klju do statistinega sklepanja je testna
statistika:
r

(1 )
, kjer je SE =
.
Z :=
SE
n
Statistika Z je torej razmerje med opaeno razliko in standardno napako.
Spomnimo se, da nielno hipotezo zavrnemo, e je p-vrednost manja od stopnje znailnosti ; p-vrednost pa je odvisna od razliice testa: pri dvostranskem testu vzamemo:
Dvostranski test:
p = 1 2(|Z|) .
Enostranski test v desno: p = 21 (Z) .
Enostranski test v levo:
p = 12 + (Z) .
Tu je Gaussov verjetnostni integral :
1
(z) =
2

et

2 /2

dt ,

njegovo vrednost pa lahko oditamo iz tabele.


e pa nas ne zanima p-vrednost, temve izberemo stopnjo znailnosti , pri kateri
bomo nielno hipotezo zavrnili ali pa ni sklepali, pa potrebujemo le kvantile normalne
porazdelitve:
. .
z0.95 = 1 65 ,

. .
z0.975 = 1 96 ,

. .
z0.99 = 2 33 ,

. .
z0.995 = 2 58

(zaradi narave stvari, ki jih raunamo, so vsi zaokroeni navzgor). Kdaj zavrnemo nielno
hipotezo, je spet odvisno od razliice testa:
Dvostranski test:
|Z| > z1/2 .
Enostranski test v desno: Z > z1 .
Enostranski test v levo:
Z < z1 .
Mnoici Z-vrednosti, kjer nielno hipotezo zavrnemo, imenujemo kritino obmoje. Odvisna je od stopnje znailnosti in razliice testa (enostranski, dvostranski).
Na zgornji postopek sklepanja bomo naleteli e vekrat in mu pravimo Z-test (ima dvostransko razliico ter enostranski razliici v levo in v desno). Spreminja se lahko testna
statistika Z, kritine vrednosti z0.95 , z0.975 , z0.99 in z0.995 pa so ksne. Z-test ustreza deklarirani stopnji znailnosti, e ima testna statistika Z standardno normalno porazdelitev. V
primeru testa delea to velja le priblino, zato privzetek, da je n min{ , 1 } 5. Za
ilustracijo prikaimo primerjavo med dejansko porazdelitvijo testne statistike Z (stolpni
.
histogram) in standardno normalno porazdelitvijo (krivulja) pri n = 100 in = 0 6:

26

M. RAI: STATISTIKA

Ilustracija p-vrednosti pri isti opaeni testni statistiki Z za razline razliice Z-testa
p-vrednost je ploina osenenega dela:

Enostranski test v desno


(alternativna hipoteza je H1+ ):
Z

Enostranski test v levo


(alternativna hipoteza je H1 ):
Z

Dvostranski test
(alternativna hipoteza je H1 ):
Z
.
Ilustracija kritinega obmoja za = 0 05:

27

M. RAI: STATISTIKA
95%
5%

Enostranski test v desno


(alternativna hipoteza je H1+ ):
z0.95

95%
Enostranski test v levo
(alternativna hipoteza je H1 ):

5%

z0.95
95%
Dvostranski test
(alternativna hipoteza je H1 ):

.
2 5%

z0.975

.
2 5%

z0.975

Primer : anketa Dela Stik v zvezi s predsednikimi volitvami. Ob predpostavki, da je Delo


Stik vzelo enostavni sluajni vzorec, testiramo nielno hipotezo, da je bila opredeljenost
volivcev ob anketiranju enaka kot opredeljenost na volitvah, proti alternativni hipotezi, da
temu ni bilo tako: izvedemo torej dvostranski test. Opredeljenost lahko opiemo z deleem
. .
volivcev, ki so glasovali za Pahorja. Opredeljenost ob volitvah poznamo: = 0 6737.
Iz podatkov, ki so na voljo, pa razberemo, da je dele anketirancev, ki so se opredelili
. .
za Pahorja, 55%/79% = 0 6962. Vpraanih je bilo 786 volivcev, opredelilo se jih je
.
.
priblino 0 79 786 = 621 =: n. Izraunamo:
r .
.
.
.
0 6737 0 3263 . .
.
. 0 6963 0 6737 . .
SE =
= 0 0188 , Z =
= 1 201 .
.
621
0 0188
.
. .
.
.
.
Tako dobimo p = 1 2 (1 201) = 0 23. Ker je p 0 05, nielne hipoteze pri = 0 05 ne
.
moremo zavrniti, kaj ele, da bi jo zavrnili pri = 0 05. Odstopanja torej niso statistino
. .
znailna. To se vidi tudi iz tega, da je Z < z0.975 = 1 96.
Podobno kot pri intervalu zaupanja tudi tu velja, da je dele testov, pri katerih nielno
hipotezo zavrnemo, eprav velja, blije za primer, ko so testi raznoliki. e elimo biti
bolj previdni, lahko spet dodamo popravek za zveznost. Natanneje, popravimo testno
statistiko Z:
1
2n
Enostranski test v desno (H1+ ): Z =
.
SE
1
+ 2n

.
Enostranski test v levo (H1 ):
Z=
SE
1
| | 2n

.
Dvostranski test (H1 ):
Z=
SE

28

M. RAI: STATISTIKA

e uporabimo popravek za zveznost, je verjetnost, da hipotezo zavrnemo, ko velja, v


povpreju manja od deklarirane . Za tak test spet pravimo, da je konservativen. Za
ilustracijo spet prikaimo primerjavo med porazdelitvijo popravljene testne statistike Z
in standardno normalno porazdelitvijo.

Enostranski test v desno


(alternativna hipoteza je H1+ ):
3

Enostranski test v levo


(alternativna hipoteza je H1 ):
3
Dvostranski test
(alternativna hipoteza je H1 ):
3

Primer . Recimo spet, da Loterija trdi, da je polovica srek dobitnih. Kupimo doloeno
tevilo srek, med katerimi je spet doloeno tevilo dobitnih. Ali lahko trdimo, da Loterija
lae? V skladu s trditvijo Loterije bomo postavili = 1/2, za alternativno hipotezo pa
bomo postavili, da je < 1/2, kjer je verjetnost, da je posamezna sreka dobitna:
primer, ko je ta verjetnost veja od 1/2, nas ne skrbi, zato ga v alternativno hipotezo ne
vkljuimo (izpeljava pokae, da dobimo isti kriterij odloanja tudi, e za nielno hipotezo
postavimo ). Izvedemo torej enostranski test v levo.
Denimo, da smo kupili 100 srek in je dobitnih le 41. Izraunamo:
r .
.
.
.
0 41 0 5
0505
.
.
SE =
= 0 05 , Z =
= 1 8 ,
.
100
0 05
.
.
.
.
od koder sledi p = 21 + (1 8) = 0 036. Nielno hipotezo torej pri = 0 05 zavrnemo,
.
.
pri = 0 01 pa tega ne moremo storiti. Z drugimi besedami, velja Z < 1 65, toda
.
Z > 2 33, zato so odstopanja statistino znailna, niso pa statistino zelo znailna. e
drugae povedano, e smo pripravljeni sprejeti 5-odstotno tveganje, da Loterijo obtoimo
po krivici, bomo rekli, da Loterija lae, e pa smo pripravljeni sprejeti le 1-odstotno
tveganje, bomo molali.
.
.
1
0 41 0 5 + 200
.
e bi dodali popravek za zveznost, bi dobili Z =
= 1 7 in statistino
.
0 05
.
.
sklepanje bi tako pri = 0 05 kot pri = 0 01 ostalo enako.

M. RAI: STATISTIKA

29

Primer . Kdaj lahko na podlagi doloenega tevila metov kovanca trdimo, da ni poten?
Tu spet postavimo = 1/2, toda zdaj moramo biti obutljivi na obe strani: za alternativno hipotezo postavimo 6= 1/2. Recimo, da 100-krat vremo kovanec in 41-krat pade
.
.
grb. Tedaj je e vedno Z = 1 8 (e delamo s popravkom za zveznost, pa pride Z = 1 7),
. . .
toda p-vrednost je zdaj enaka 1 2(1 8) = 0 072 (ravno dvakratnik prejnje, to pa je
.
zato, ker smo obutljivi na dve strani). Z drugimi besedami, velja |Z| < 1 96. To pomeni,
da odstopanja niso statistino znailna.
.
.
e pa bi kovanec vrgli
1000-krat in bi 410-krat padel grb, bi bilo SE = 0 05/ 10 =

. .
.
.
0 0158 in Z = 1 8 10 = 5 59. V tem primeru bi bila odstopanja zalo znailna. Iz
.
.
tabele se da razbrati, da pride p-vrednost manj kot 0 00005 (v resnici pride 6 3 109 ).
Primer : Gallupova napoved volilnega izida predsednikih volitev v ZDA leta 1936. V
.
skladu z uradnim izidom postavimo = 0 38 (gledamo dele tistih, ki so glasovali za
.
Landona) in v skladu z Gallupovo napovedjo postavimo = 0 44. Izvedemo dvostranski
test. Spomnimo se, da je Gallup povpraal n = 50.000 volivcev. Izraunamo:
r .
.
.
.
0 38 0 62 . .
0 44 0 38 .
.
SE =
= 0 00217 , Z =
= 27 64 ,
.
50000
0 00217
.
Pogled v tabelo pove, da je p-vrednost manja od 0 00005 (v resnici je celo manja od
10100 ). Odstopanja so torej statistino ve kot zelo znailna, torej lahko tudi za Gallupa
reemo, da je bil njegov vzorec pristranski. Tudi Gallupov intitut ni pravilno napovedal
izidov vseh predsednikih volitev v ZDA.
Za smo tu vzeli dele tistih, ki so glasovali za Landona. Enako bi dobili, tudi e bi
gledali dele tistih, ki so glasovali za Roosevelta.
Primer : Gallupova napoved izida ankete revije Literary Digest. V skladu z izidom an.
kete postavimo = 0 571. Za Gallupovo napoved 56% avtor al ni nael natannejih
.
.
podatkov, torej vemo le, da je bil Gallupov dele za Landona med 55 5% in 56 5%. Izvedemo dvostranski test, pri emer se spomnimo, da je Gallup povpraal n = 3.000 volivcev.
Najprej velja:
r .
.
0 571 0 429 . .
SE =
= 0 009036 .
3000
. .
Nadalje za = 0 555 dobimo:
.
.
. 0 555 0 571 .
. .
.
= 1 77 , p = 0 077 ,
Z=
.
0 00936
. .
za = 0 565 dobimo:
.
.
. .
. 0 555 0 571 .
.
= 0 66 , p = 0 51 .
Z=
.
0 00936
Vidimo, da v okviru razpololjivih podatkov p-vrednost mono variira, vendar odstopanja
v nebenem primeru niso statistino znailna.

30

M. RAI: STATISTIKA

2.2

Imenske spremenljivke

2.2.1

Frekvenna porazdelitev

e ima imenska spremenljivka, ki jo gledamo, ksen konen nabor monih vrednosti, je


podobno kot pri dihotomni vrednosti smiselno govoriti o frekvencah, torej kolikokrat se je
pojavila doloena vrednost. Namesto tega lahko povemo tudi relativne frekvence (delee),
torej frekvence, deljene s tevilom enot. Zapis vseh vrednosti skupaj z (relativnimi)
frekvencami imenujemo frekvenna porazdelitev, ki jo lahko predstavimo v obliki tabele:
vrednosti frekvence relativne frekvence
a1
f1
f1
a2
f2
f2
..
..
..
.
.
.
ak
fk
fk
Frekvenca fi je torej tevilo enot, na katerih ima spremenljivka vrednost ai . tevilo enot
z doloeno lastnostjo bomo oznaevali z znakom . Tako lahko s formulo zapiemo:
fi = (X = ai ) ;

i = 1, 2, . . . , k .

Velja e:

fi
, f1 + f2 + + fk = 1 .
n
Frekvenno porazdelitev imenskih spremenljivk grano predstavimo s tortnim diagramom (angl. pie chart ali circle graph) ali s histogramom.
f1 + f2 + + fk = n ,

fi =

e se nai podatki nanaajo na enostavni sluajni vzorec iz neke populacije, so relativne frekvence tudi tokaste ocene populacijskih deleev. e so torej 1 , 2 , . . . , k delei
enot, na katerih ima spremenljivka vrednost a1 , a2 , . . . , ak , so njihove ocene kar i = fi .
Modus je vrednost z najvijo frekvenco. Oznaevali ga bomo z M , pogosta oznaka pa
je tudi Mo ali Mo. Modusov je lahko ve.
Modus je ena od mer centralne tendence.
Primer : 32 ljudi so vpraali, kaj v ivljenju jim najve pomeni.3 Moni odgovori so bili:
(D)
(F)
(Z)
(H)
(U)

Druina, otroci, stari.


Denar, nanna neodvisnost.
Zabava, sprostitev.
Hia, avto, dobre obleke.
Ugled, spotovanje.

Odgovori, ki so jih dobili:4


3
4

www.anketnik.net, 9. 9. 20109. 3. 2011


Vrstni red je izmiljen.

31

M. RAI: STATISTIKA

F, D, D, U, Z, D, D, D, U, D, D, D, H, D, D, D, F, F, D, U, D, D, H, H, D, D, D, D, D, D, U, Z.

Frekvenna porazdelitev:
vrednosti
frekvence
Druina, otroci, stari
20
Denar, nanna samostojnost
3
Zabava, sprostitev
2
Hia, avto, dobre obleke
3
Ugled, spotovanje
4

relativne frekvence
.
.
0 625 = 62 5%
.
.
0 094 = 9 4%
.
.
0 063 = 6 3%
.
.
0 094 = 9 4%
.
.
0 125 = 12 5%

Histogram in tortni grakon:


Druina, stari, otroci

25
20

Denar, nanna samostojnost

15

Zabava, sprostitev

10

Hia, avto, lepe obleke

5
0

Ugled, spotovanje

Modus je druina, stari, otroci.


e vemo, katere vrednosti so si blizu oz. sosedne, lahko deniramo tudi lokalne moduse.
Porazdelitev je bimodalna, e ima dva izrazita lokalna modusa, pri emer enake frekvence
na sosednih vrednostih obravnavamo kot en lokalni modus. Porazdelitev je multimodalna,
e ima ve kot dva izrazita lokalna modusa v prejnjem smislu.
Vasih modusi, posebej lokalni, za prvotne vrednosti ne odraajo realne slike. To se
zgodi takrat, ko je vrednosti veliko, frekvence pa majhne.
Primer : rezultati kolokvija iz uvoda (urejeni po velikosti):
0, 0, 5, 5, 10, 10, 12, 15, 15, 15, 17, 19, 20, 20, 23, 23, 24, 25, 25, 25, 25, 25, 27, 27, 28, 28, 29, 30, 30, 30, 30, 31, 32, 33, 33, 35, 35, 35,
35, 35, 37, 37, 38, 39, 40, 40, 40, 40, 40, 40, 41, 41, 42, 43, 45, 45, 47, 47, 48, 49, 49, 50, 50, 50, 50, 50, 50, 52, 52, 53, 53, 54, 55, 55, 55, 55,
55, 55, 55, 55, 55, 55, 56, 57, 58, 60, 60, 60, 62, 62, 63, 64, 65, 65, 65, 67, 68, 68, 68, 68, 69, 70, 70, 71, 72, 73, 74, 74, 75, 75, 75, 75, 75, 78,
79, 80, 80, 85, 85, 85, 88, 88, 90, 90, 93, 95, 98, 98, 99, 100, 100

Pisalo je 131 tudentov, mono pa je bilo zbrati od 0 do 100 tok. Histogram po


rezultatih je videti takole:

32

M. RAI: STATISTIKA
10

10

20

30

40

50

60

70

80

90

100

in ni pretirano ilustrativen je zelo naagan. Tudi modus (55) je lahko zavajajo.


A e vemo, katere vrednosti so si blizu oz. sosedne, jih lahko zdruimo v razrede in na
njih gledamo frekvenno porazdelitev. Na ta nain navadno dobimo dosti ilustrativneji
histogram. Obstaja ve kriterijev, kako veliki naj bodo razredi.

Najbolj grobo
je korensko pravilo, po katerem se naredi priblino n razredov po
priblino n enot. Izkae se, da pride pri velikih statistinih mnoicah histogram
preve naagan delitev je prena.
e elimo manj naagan histogram, uporabimo pravilo tretjega korena, po katerem
se naredi priblino n1/3 razredov po priblino n2/3 enot. Pri tem pravilu pride
histogram priblino enako naagan ne glede na tevilo enot.
Za vije merske lestvice obstajajo e bolj sosticirana pravila glej razdelek o intervalskih spremenljivkah.
Primer : razdelimo vrazrede podatke iz prejnjega primera. e uporabimo korensko
.
.
pravilo, izraunamo 131 = 11 44. e malo zaokroimo in razdelimo podatke na 10
razredov v razponu po 10 tok. Dobimo:
25

20

15

10

09

1019

2029

3039

4049

5059

6069

7079

8089

90100

33

M. RAI: STATISTIKA
Slika je mnogo bolja. Namesto modusa ima pomen modalni razred od 50 do 59 tok.

.
Oglejmo si e, kaj dobimo, e uporabimo pravilo tretjega korena. Izraunamo 1311/3 =
5 08 in se odloimo, da podatke razdelimo v 5 razredov v razponu po 20 tok. Dobimo:
.

50

40

30

20

10

019

2039

4059

6079

80100

Histogram ima pravilnejo obliko, a je tudi bolj grob in morda skrije kakno podrobnost.

2.2.2

Tokasto ocenjevanje in test skladnosti

Recimo, da se podatki, ki smo jih dobili, nanaajo na enostavni sluajni vzorec iz neke
populacije ali pa tudi na vrednosti doloene spremenljivke v zaporedju neodvisnih poskusov (npr. tevilo pik pri metu kocke). e so fi relativne frekvence na vzorcu, i pa
na populaciji (ali pa verjetnosti posameznih vrednosti v posameznem poskusu), slednje
ocenimo tako kot pri dihotomnih spremenljivkah:
fi
i = fi = .
n
.
Tako npr. na podlagi ankete iz prejnjega primera ocenimo, da priblino 62 5% najve
pomeni druina.
Tako kot pri dihotomnih spremenljivkah se da konstruirati tudi intervale zaupanja,
vendar v tem primeru verjetnost pokritosti velja le za posamezno vrednost, ne pa za vse
hkrati. Da se sicer konstruirati sploneje mnoice zaupanja, katerih elementi so vektorji
deleev (torej porazdelitve na populaciji) in s tem dosei pravo verjetnost pokritosti,
vendar se tu s tem ne bomo ukvarjali.
Da pa se testirati nielno hipotezo o doloeni porazdelitvi na populaciji. To storimo s
Pearsonovim testom skladnosti. e nielna hipoteza trdi, da je 1 = 1 , 2 = 2 , . . . , k =
k , alternativna hipoteza pa trdi, da temu ni tako, izraunamo testno statistiko hi kvadrat
(angl. chi-squared ):
k
k
X
X
(fi ni )2
(i i )2
2
=
=
n
ni
i
i=1
i=1

34

M. RAI: STATISTIKA

in nielno hipotezo zavrnemo, e je 2 > 21 (k 1). Na desni je kvantil porazdelitve


hi kvadrat s k 1 prostostnimi stopnjami za verjetnost 1 . Temu pravimo kritina
vrednost testne statistike hi kvadrat. Kritine vrednosti lahko oditamo iz tabele.
Ta test je poseben primer testa hi kvadrat, in sicer je njegova enostranska razliica v
desno s k 1 prostostnimi stopnjami. Ve o testih hi kvadrat kasneje.

V primeru, ko imamo le dve moni vrednosti (t. j. dihotomno spremenljivko), je Pearsonov test skladnosti ekvivalenten dvostranskemu Z-testu delea (e hipotezo zavrnemo
pri enem testu, jo zavrnemo tudi pri drugem).
Podobno kot Z-test delea je tudi Pearsonov test skladnost zgolj priblien, kar pomeni,
da deklarirana stopnja znailnosti ne sovpada isto z verjetnostjo napake prve vrste. Velja,
da je test za nae potrebe dovolj natanen, e je:
populacija velika;
ni 5 za vse i. Sicer moramo zdruiti blinje vrednosti.
Primer : predasne volitve v Sloveniji dne 4. 12. 2011. Agencija Mediana je izvedla vzporedne volitve, na katerih je povpraala n = 16.200 volivcev. Rezultati ankete skupaj z
uradnimi rezultati volitev so prikazani spodaj.
Stranka
Vzporedne volitve Uradni rezultat
.
.
Lista Zorana Jankovica Pozitivna Slovenija
29 08%
28 51%
.
.
Slovenska demokratska stranka
26 54%
26 19%
.
.
Socialni demokrati
10 79%
10 52%
.
.
Lista Gregorja Viranta
8 66%
8 37%
.
.
Demokratina stranka upokojencev Slovenije
6 70%
6 97%
.
.
Slovenska ljudska stranka
6 38%
6 83%
.
.
Nova Slovenija
4 70%
4 88%
.
.
Drugi
7 15%
7 73%
Na Medianini spletni strani5 pie, da je bila njihova napoved NATANNA. Ujemanje
je res precejnje, a tudi tevilo vpraanih volivcev je bilo veliko. Je napoved res natanna
v smislu inferenne statistike? Izraunajmo:
 .
.
.
.
.
.
(0 2908 0 2851)2 (0 2654 0 2619)2 (0 1079 0 1052)2
2
= 16200
+
+
+
.
.
.
0 2851
0 2619
0 1052
.
.
.
.
.
.
(0 0866 0 0837)2 (0 0670 0 0697)2 (0 0638 0 0683)2
+
+
+
+
.
.
.
0 0837
0 0697
0 0683

.
.
.
.
(0 0470 0 0488)2 (0 0715 0 0773)2 .
+
+
=
.
.
0 0488
0 0773
.
.
= 19 98 .
Ker je 8 skupin, imamo df = 7 prostostnih stopenj. Kvantil porazdelitve hi kvadrat
.
.
.
za verjetnost 0 99 je 20.99 (7) = 18 5. To pomeni, da hipotezo, da je Medianin vzorec
5

http://www.mediana.si/novice/?stran=1#CmsC58E1C449E3, presneto dne 7. 3. 2013

35

M. RAI: STATISTIKA

.
nepristranski, zavrnemo tudi pri stopnji znailnosti = 0 01: odstopanja so zelo znailna.
Mediana se torej v tem primeru ne bi smela preve hvaliti z natannostjo.

2.3

Urejenostne spremenljivke

2.3.1

Ranirna vrsta, rangi

Vrednosti urejenostne spremenljivke lahko uredimo po velikosti razvrstimo v ranirno


vrsto:
x(1) x(2) x(n) .

Ranirna vrsta je natanno doloena z zgornjim pogojem in s tem, da se njena frekvenna


porazdelitev ujema s frekvenno porazdelitvijo statistine spremenljivke. Elementu x(i)
pravimo i-ta vrstilna statistika (angl. order statistics).
Rang dane vrednosti je njen poloaj v ranirni vrsti: rang vrednosti x je enak i, e je
x = x(i) .

e so vse vrednosti spremenljivke X razline in je vrednost x zavzeta, je njen rang


natanno doloen. Oznaimo ga z R(x). V tem primeru velja:
R(x) = (X x) = (X < x) + 1 .
Primer : e izmerjene vrednosti:
x1 = 4, x2 = 2, x3 = 75, x4 = 42, x5 = 15, x6 = 63
razvrstimo v ranirno vrsto, dobimo:
x(1) = 2, x(2) = 4, x(3) = 15, x(4) = 42, x(5) = 63, x(6) = 75
in velja:
R(2) = 1 ,

R(4) = 2 ,

R(15) = 3 ,

R(42) = 4 ,

R(63) = 5 ,

R(75) = 6 .

Rangi ostalih vrednosti (e) niso denirani.


e vrednosti spremenljivke niso vse razline, govorimo o vezeh (angl. ties): vez je
skupek dveh ali ve enot, na katerih ima spremenljivka enako vrednost. e so prisotne
vezi, rang ni nujno natanno doloen.
Primer : naj bo A < B < C < D < E in naj bo dana ranirna vrsta podatkov:
A, B, B, B, B, C, D, D, D, E .
Oitno je R(A) = 1, R(C) = 6 in R(E) = 10. Rang vrednosti B je lahko 2, 3, 4 ali 5,
rang vrednosti D pa 7, 8 ali 9.

36

M. RAI: STATISTIKA

Vsem monim rangom vrednosti x pravimo surovi rangi. Spodnji rang je najniji,
zgornji rang pa najviji moni surovi rang. Velja:
spodnji rang = (X < x) + 1 ,
zgornji rang = (X x) .
Spodnji in zgornji rang lahko deniramo za poljubno, ne le zavzeto vrednost. Vezani
rang je aritmetina sredina spodnjega in zgornjega ranga in oznaka R(x) bo zadevala to
tevilo:
spodnji rang + zgornji rang
(X < x) + (X x) + 1
=
.
2
2
.
Tako je v zgornjem primeru R(A) = 1, R(B) = 3 5, R(C) = 6, R(D) = 8 in R(E) = 10.
e bi namesto A, . . . , E imeli tevila, npr.:
R(x) =

21, 27, 27, 27, 27, 28, 29, 29, 29, 32 ,


.
.
.
.
bi veljalo npr. R(27) = 3 5, R(30) = R(31) = 9 5, R(20) = 0 5 in R(40) = 10 5.
Relativni ali tudi kvantilni rang je deniran po predpisu:
R(x)
r (x) =
n

1
2

in ne glede na vezi velja:


(X < x) + (X x)
.
2n
.
.
V prejnjem primeru bi tako veljalo r (27) = 0 3, r (30) = r (31) = 0 9, r (20) = 0 in
r (40) = 1.
r (x) =

Relativni rang pove poloaj posamezne vrednosti glede na skupino.


Primer : oglejmo si rezultate dveh kolokvijev:

Ambro
Bla
Cvetka
Darja
Emil

83
22
61
45
49

Florjan
Gal
Helena
Iva
Jana
Karmen
Lev
Mojca

84
86
71
67
67
88
89
64

in se vpraajmo, kdo je glede na svoje kolege pisal bolje: Cvetka ali Gal?
.
.
Cvetka ima rang 4 in relativni rang 3 5/5 = 0 7, Gal pa ima rang 6 in relativni rang
.
.
5 5/8 = 0 6875, kar je skoraj enako.

37

M. RAI: STATISTIKA

2.3.2

Kumulativne frekvence

e ima urejenostna spremenljivka, ki jo gledamo, ksen konen nabor monih vrednosti,


lahko spet gledamo frekvenno porazdelitev. Vrednosti uredimo po velikosti:
a1 < a2 < < ak
ter dodamo e kumulativne frekvence in relativne kumulativne frekvence:
Fi = (X ai ) = f1 + f2 + + fi ,

Fi =

Fi
= f1 + f2 + + fi .
n

To lahko spet predstavimo v tabeli:


relativne
vrednosti frekvence
frekvence
a1
a2
a3
..
.

f1
f2
f3
..
.

ak

fk

kumulativne
frekvence
F0 = 0
F 1 = f1
F 2 = F 1 + f2
F 3 = F 2 + f3
..
.

f1
f2
f3
..
.
fk

relativne
kumulativne
frekvence
F0 = 0
F1 = f1

F2 = F1 + f2
F3 = F2 + f3
..
.

Fk = Fk1 + fk = n Fk = Fk1
+ fk = 1

Primer : ocene s kolokvijev pri predmetu Verjetnost in statistika na univerzitetnem tudiju


matematike na UL FMF v tudijskem letu 2010/11:
ocena
neg.
6
7
8
9
10

fi
25
13
12
7
3
4

Fi
25
38
50
57
60
64

f
.i
0 391
.
0 203
.
0 188
.
0 109
.
0 047
.
0 063

F
. i
0 391
.
0 594
.
0 781
.
0 891
.
0 938
1

Iz frekvenne porazdelitve lahko oditamo vrstilne statistike, in sicer velja:


x(i) = aj ,

e je 1 + Fj1 i Fj .

Pri doloanju i-te vrstilne statistike moramo torej pogledati prvo kumulativno frekvenco,
ki je enaka vsaj i.
Nekaj vrstilnih karakteristik iz prejnjega primera: x(40) = 7, x(60) = 9, x(61) = 10.
Iz kumulativnih frekvenc lahko oditamo tudi range: vrednost aj ima surove range od
1 + Fj1 do Fj in vezani rang:
R(aj ) =

Fj1 + Fj + 1
.
2

38

M. RAI: STATISTIKA

Seveda so vezani rangi denirani tudi za vrednosti, ki niso zavzete: e je a < a1 , je


R(a) = 1/2; e je a > ak , je R(a) = n + 1/2. Za aj1 < a < aj pa je R(a) = Fj1 + 1/2.
Rangi ocen pri prejnjem primeru:
.
.
R(neg.) = 13 , R(6) = 32 , R(7) = 44 5 , R(8) = 54 , R(9) = 59 , R(10) = 62 5 .
Podobno lahko iz (relativnih) kumulativnih frekvenc oditamo tudi relativne range:
r (aj ) =

Fj1
+ Fj
Fj1 + Fj
=
.
2n
2

Poleg tega za a < a1 velja r (a) = 0, za a > ak velja r (a) = 1, za aj1 < a < aj pa je

r (a) = Fj1
.
Relativni rangi ocen pri prejnjem primeru:
. .
r (neg.) = 0 195 ,
. .
r (8) = 0 844 ,

. .
r (6) = 0 492 ,
. .
r (9) = 0 914 ,

. .
r (7) = 0 688 ,
. .
r (10) = 0 969 .

Tako kot pri imenskih spremenljivkah lahko tudi tu porazdelitev prikaemo grano.
Tortni grakon je za urejenostne spremenljivke manj primeren, saj se iz njega ne vidi
urejenost. Primerna pa sta histogram in rtni grakon (angl. line chart, line graph). Prikaemo lahko razredne in kumulativne frekvence (absolutne ali relativne). Kadar kumulativne frekvence prikazujemo s rtnim grakonom, vozle postavimo vmes med vrednosti.
Takemu rtnemu grakonu pravimo pravimo ogiva, tudi oiva (angl., fr. ogive, v prvotnem pomenu gotski lok). e so vozli tono na sredini med vrednostmi in so prikazane
relativne frekvence, viina rte nad posamezno vrednostjo ustreza relativnemu rangu.
Histogram iz razrednih relativnih frekvenc in ogiva pri prejnjem primeru:
1
0.75
0.5
0.25
0

neg.

10

39

M. RAI: STATISTIKA

2.3.3

Kvantili

Kvantil pripada statistini spremenljivki in deleu. Povrno povedano je to meja, pod


katero lei priblino dani dele podatkov. Natanna denicija pa je podana spodaj.
Vrednost q je kvantil statistine spremenljivke X za dele , e velja:
(X < q )

in

(X q )
.
n

Primer : dana je ranirna vrsta:


10, 10, 20, 30, 50, 80, 130, 210, 340, 550 .
Kvantil q0.49 mora izpolnjevati pogoja:
.
(X < q0.49 ) 4 9 in

.
(X q0.49 ) 4 9 .

Prvi pogoj izpolnjujejo vrednosti do vkljuno 50, drugega pa vrednosti od vkljuno 50


.
naprej. Torej je 50 edini moni kvantil za dele 0 49.
Kvantil q0.5 mora izpolnjevati pogoja:
(X < q0.5 ) 5 in

(X q0.5 ) 5 .

Prvi pogoj izpolnjujejo vrednosti do vkljuno 80, drugega pa vrednosti od vkljuno 50


.
naprej. Torej je vsako tevilo iz intervala [50, 80] lahko kvantil za dele 0 5. To je kvantilni
interval za ta dele.
Kvantil q0.1 mora izpolnjevati pogoja:
(X < q0.1 ) 1 in

(X q0.1 ) 1 .

Prvi pogoj izpolnjujejo vrednosti do vkljuno 10, drugega pa vrednosti od vkljuno 10


.
naprej. Torej je 10 edini moni kvantil za dele 0 1.
Lastnosti kvantilov:
Za vsak [0, 1] obstaja kvantil dane spremenljivke za dele .
Kvantili niso nujno enolino doloeni.
e sta q in q kvantila za isti dele ter velja q q q , je tudi q kvantil za ta
dele.
Kvantil za dele je vrednost s kvantilnim rangom priblino . Velja tudi, da je vrednost,
ki ima kvantilni rang , kvantil za dele . Sicer pa lahko kvantile (za delee, ki niso nujno
kvantilni rangi) dobimo iz vrstilnih karakteristik, in sicer:
Kvantil za dele 0 je katero koli tevilo iz (, x(1) ].

40

M. RAI: STATISTIKA
Kvantil za dele 1 je katero koli tevilo iz [x(n) , ).
e je 0 < < 1 in je n celo tevilo, je kvantil za dele katero koli tevilo iz
intervala [x(n) , x(n+1) ]. Dobljeni kvantilni interval bomo pisali tudi kot [q , q+ ],
krajii pa imenovali spodnji in zgornji kvantil.
e je 0 < < 1 in n ni celo tevilo, je kvantil za dele enolino doloen, in sicer
je enak x(n) (oznaka h tukaj pomeni h, zaokroen navzgor). V tem primeru
bomo postavili q = q+ = q .

Pomembni kvantili:
Kvantilu za dele 1/2 pravimo mediana in jo bomo oznaevali z m. Pogosta oznaka
je tudi Me ali Me. Mediani pravimo tudi srednja vrednost in je mera centralne
tendence. Pri dihotomnih spremenljivkah je mediana enaka modusu.
Kvantila za delea 1/3 in 2/3 sta prvi in drugi tercil.
Kvantili za delee 1/4, 1/2 in 3/4 so kvartili. Drugi kvartil je torej mediana.

. .
.
Kvantilom za delee 0 1, 0 2, . . . , 0 9 pravimo decili.

.
.
.
Kvantilom za delee 0 01, 0 02, . . . , 0 99 pravimo centili ali tudi percentili. 1., 5., 95.
in 99. percentil so pomembni v inferenni statistiki, ker na njih temeljijo dogovorjeni
pojmi. Pomembni so tudi q0.005 , q0.025 , q0.975 in q0.995 .
Kvantili so tevilske karakteristike. tevilska karakteristika je tudi modus. Kasneje, pri
intervalskih spremenljivkah, bomo spoznali e ve tevilskih karakteristik.
Primer : pri ranirni vrsti:
10, 10, 20, 30, 50, 80, 130, 210, 340, 550
je mediana kar koli iz [x(5) , x(6) ] = [50, 80] (kar smo e ugotovili), tretji kvartil pa je
x(8) = 210.
.
.
Vrednost 20 ima kvantilni rang 0 25 in je zato tudi kvantil za dele 0 25; kvantil za
.
ta dele je enolino doloen. Prav tako pa je enolino doloen tudi kvantil za dele 0 26,
.
prav tako je enak 20, vendar 0 26 ni kvantilni rang vrednosti 20.
Pri sodem tevilu podatkov mediana tipino ni natanno doloena:

pri lihem pa je:

41

M. RAI: STATISTIKA

e en primer z rezultati 50 meritev, kjer je s sivo oznaen interval za 9. decil :

Primer : pri ocenah s kolokvijev so vsi kvartili natanno doloeni. Prvi kvartil je sicer
res na intervalu [x(16) , x(17) ], mediana na [x(32) , x(33) ] in tretji kvartil [x(48) , x(49) ], toda
x(16) = x(17) = neg., x(32) = x(33) = 6 in x(48) = x(49) = 7, zato lahko zapiemo q1/4 = neg.,
m = 6 in q3/4 = 7.
Vrstilne karakteristike lahko grano predstavimo s katlo z brki (angl. box plot).
Navadno nariemo minimalno vrednost, kvartile in maksimalno vrednost, lahko pa tudi
kakne druge karakteristike.
Primer : rezultati kolokvijev iz matematike na univerzitetnem tudiju gozdarstva na
UL BTF v tudijskem letu 2004/05 (prikazani so minimalna vrednost, kvartili in maksimalna vrednost):
1. kolokvij: 9, 11, 12, 14, 17, 17, 24, 24, 26, 30, 34, 35, 36, 37, 42, 42, 44, 45, 49, 50, 51, 54, 57, 62, 63, 65, 65, 68, 69
2. kolokvij: 19, 19, 20, 24, 27, 27, 36, 45, 47, 47, 48, 48, 49, 57, 57, 60, 61, 63, 64, 65, 69
3. kolokvij: 32, 32, 39, 42, 43, 47, 49, 50, 50, 53, 53, 56, 60, 62, 68, 68, 69, 69

72

54

36

18

1. kolokvij

2. kolokvij

3. kolokvij

42

M. RAI: STATISTIKA

2.3.4

Tokasto ocenjevanje karakteristik

Denimo zdaj, da se podatki, ki smo jih dobili, nanaajo na enostavni sluajni vzorec iz
velike populacije. eleli bi oceniti vse statistike, ki smo jih obravnavali do sedaj in ki so
stabilne, ko se populacija vea: populacijske relativne range, relativne kumulativne frekvence in kvantile. Vrednosti teh statistik na vzorcu bomo oznaevali kot doslej, vrednosti
na populaciji pa takole:
relativni rang, ki pripada vrednosti x, z (x);
relativno kumulativno frekvenco, ki pripada vrednosti ai , s i ;
kvantil za dele Q s Q (kateri koli kvantil za ta dele, a e je populacija velika, so
kvantili navadno zelo natanno doloeni).
Pri prvih dveh statistikah vrednosti na populaciji preprosto ocenimo z vrednostmi na
vzorcu:
i = Fi .
(x) = r (x) ,
Za ocenjevanje kvantilov pa obstaja presenetljivo veliko razliic in vsaka ima svoje prednosti in slabosti. Omejili se bomo na intervalske spremenljivke, katerih vrednosti na
populaciji so ustrezno razprene (natanneje, pomembno je, da so zagotovljene vrednosti
na dovolj majhnih intervalih, od koder sledi tudi, da so kvantili zelo natanno doloeni).
Kvantil za dele bomo tukaj ocenili na naslednji nain, ki ga uporablja tudi excel:
Izraunamo h = (n 1) + 1.
Naj bo k celi del tevila h.
= x(k) + (h k)(x(k+1) x(k) ).
Cenilka za Q je Q
Tokasta ocena za mediano po zgornji metodi je natanno 21 (m + m+ ), torej sredina
medianskega intervala.
Primer : vzemimo ranirno vrsto iz vzorca velikosti 11:
6, 7, 10, 10, 11, 11, 12, 12, 12, 16, 17.
.
Oglejmo si npr. 17. percentil. Vrednost na vzorcu je enolino doloena: iz 11 0 17 = 2
.
dobimo q0.17 = x(2) = 7. Za oceno populacijskega prvega kvartila pa dobimo h = 2 7,
. = x(2) + 0.7 (x(3) x(2) ) = 9.1. Na spodnjem grafu je s sivo prikazana
k = 2 in Q
0 17
vzorna kvantilna funkcija, s rno pa ocena populacijske kvantilne funkcije:

43

M. RAI: STATISTIKA
x
17
16
15
14
13
12
11
10
9
8
7
6

1
11

2.3.5

2
11

3
11

4
11

5
11

6
11

7
11

8
11

9
11

10
11

Intervalsko ocenjevanje karakteristik

Kumulativna frekvenca je v resnici dele enot, na katerih statistina spremenljivka ne


presega dane vrednosti, zato jo tudi ocenjujemo tako kot dele. Relativni rang pa je povpreje dveh deleev in tudi pri njem se lahko posluimo istih metod. Pri obeh statistikah
bomo torej vzeli e znani AgrestiCoullov interval zaupanja. Pri stopnji zaupanja bomo
torej vzeli kvantil normalne porazdelitve (to je kvantil iz teorije verjetnosti, soroden tukaj
deniranemu kvantilu) c = z(1+)/2 in izraunali n
= n + c2 . Za interval zaupanja za
relativno frekvenco bomo izraunali:
s
c2

i = Fi + 2 ,
f = i (1 i ) ,
i c SE
f , i,max =
i + c SE
f,

SE
i,min =
n

za relativni rang pa:

r
2
R(x) + c 21
f = (x)(1 (x)) ,
(x) =
,
SE
n

f
f,
min (x) = (x) c SE , max (x) = (x) + c SE

Primer : ponovno ocene s kolokvijev pri predmetu Verjetnost in statistika na univerzite-

44

M. RAI: STATISTIKA

tnem tudiju matematike na UL FMF v tudijskem letu 2010/11:


ocena
neg.
6
7
8
9
10

fi
25
13
12
7
3
4

Fi
25
38
50
57
60
64

f
.i
0 391
.
0 203
.
0 188
.
0 109
.
0 047
.
0 063

F
. i
0 391
.
0 594
.
0 781
.
0 891
.
0 938
1

. .
Ocena 7 ima vzorno relativno kumulativno frekvenco F3 = 0 781 in vzorni relativni
. .
.
.
rang r (7) = (0 594 + 0 781)/2 = 0 688. Recimo sedaj, da bi bil to vzorec univerzitetnih
tudentov matematike, ki so kdaj koli pisali kolokvije iz verjetnosti in statistike (eprav
vzorec tudentov, ki so pisali v doloenem letu, nikakor ni reprezentativen). Doloimo
95% interval zaupanja za 3 in (7) za primer, ko bi bil to enostavni sluajni vzorec iz
. .
velike populacije. Najprej se spomnimo, da je c = z0.975 = 1 96 in izraunajmo n
=
.
.
n + c2 = 67 84. Interval zaupanja za relativno kumulativno frekvenco:
r .
. 2
.
50
+
1
96
/2
0 76532 0 23468 . .
.
.
.

f
3 =
= 0 76532 ,
SE =
= 0 05145 ,
.
.
67 84
67 84
. .
. .
.
.
.
.
.
.
3,min = 0 76532 1 96 0 05145 = 0 664 , 3,max = 0 76532 + 1 96 0 05145 = 0 867 .
Interval zaupanja za relativni rang:
R(7) =

.
.
. 44 5 + (1 962 1)/2 . .
= 0 67688 ,
(7) =
.
67 84
.
.
. .
f = 0 67688 . 0 32312 =
SE
0 05678 ,
67 84
. .
.
.
.
min (7) = 0 67688 1 96 0 05678 = 0 565 ,
. .
.
.
.
max (7) = 0 67688 + 1 96 0 05678 = 0 789 .

38 + 50
.
= 44 5 ,
2
r

Intervalsko ocenjevanje kvantilov pa je malo drugano. Tokrat ne bomo privzeli,


da je spremenljivka intervalska. e elimo poiskati interval zaupanja za Q , najprej
izraunamo:
r
(1 )
SE =
,
min = c SE ,
max = c SE ,
n
kjer je c = z(1+)/2 e dobro znani kvantil normalne porazdelitve. Meji intervala zaupanja
sta:
Q,min = qmin ,
Q,max = q+max .
Primer : izraunajmo 95% interval zaupanja za 6. decil populacije, iz katere dobimo enostavni sluajni vzorec:
10, 10, 20, 30, 50, 80, 130, 210, 340, 550 .

45

M. RAI: STATISTIKA
Velja:

min

. .
c = 1 96 ,
SE =
. .
.
.
.
= 0 6 1 96 0 15492 = 0 296 ,

r .
.
0604 . .
= 0 15492 ,
10
. .
.
.
.
max = 0 6 + 1 96 0 15492 = 0 904 ,

torej je:

0.6,min = q0.296
Q
= x(3) = 20 ,

2.3.6

+
0.6,max = q0.904
Q
= x(10) = 550 .

Testiranje karakteristik

Podobno kot pri intervalih zaupanja relativne frekvence in relativne range tudi testiramo
kot delee z Z-testom. e testiramo nielno hipotezo, da je i = i , izraunamo:
r
i (1 i )
F i
,
Z= i
.
SE =
n
SE
e testiramo nielno hipotezo, da je (x) = (x), izraunamo:
s

(x) 1 (x)
r (x) (x)
SE =
,
Z=
.
n
SE
Nato testiramo tako, kot smo testirali dele .
Primer : e imamo dan vzorec rezultatov:
ocena
neg.
6
7
8
9
10

fi
25
13
12
7
3
4

Fi
25
38
50
57
60
64

f
.i
0 391
.
0 203
.
0 188
.
0 109
.
0 047
.
0 063

F
. i
0 391
.
0 594
.
0 781 ,
.
0 891
.
0 938
1

testiramo nielno hipotezo, da je tudentov, ki so pisali 6 ali manj, v celotni populaciji


tono polovica, proti alternativni hipotezi, da jih je ve kot pol. Izraunajmo:
r .
.
.
.
0505 . .
0 594 0 5 . .
SE =
= 0 0625 ,
Z=
= 1 52 .
.
64
0 0625
. .
Ker je to manj od z0.95 = 1 65, odstopanja niso statistino znailna: nielne hipoteze ne
.
.
moremo zavrniti niti pri = 0 05 niti pri = 0 01.
e pa testiramo nielno hipotezo, da je relativni rang ocene 7 na populaciji enak tono
.
0 5, proti alternativni hipotezi, da je razlien od 0 5, izraunamo:
r .
.
.
.
0505 . .
0 688 0 5 .
= 0 0625 ,
Z=
=3
SE =
.
64
0 0625
.

in dobimo, da so odstopanja statistino zelo znailna.

46

M. RAI: STATISTIKA

Pri testiranju hipoteze, da je Q = Q , moramo biti nekoliko previdneji. Spet izraup


namo SE = (1 )/n.
e alternativna hipoteza trdi, da je Q > Q , postavimo c = z1 in nielno hipotezo
zavrnemo, e je

(XQ )
n

< c SE ali, ekvivalentno, e je qcSE


> Q .

e alternativna hipoteza trdi, da je Q < Q , postavimo c = z1 in nielno hipotezo


zavrnemo, e je

(X<Q )
n

+
> + c SE ali, ekvivalentno, e je q+cSE
< Q .

e alternativna hipoteza trdi, da je Q 6= Q , postavimo c = z1/2 in nielno


(X<Q )

(XQ )

hipotezo zavrnemo, e je
> + c SE ali
< c SE. To je
n
n

+
ekvivalentno dejstvu, da je qcSE
> Q ali pa q+cSE
< Q .

.
Primer : Pri prej omenjenih rezultatih kolokvijev pri stopnji znailnosti = 0 01 testiramo hipotezo, da je mediana na populacijipenaka 8, proti alternativni hipotezi, da je
. .
.
.
.
manja od 8. Velja c = z0.99 = 2 33 in SE = 0 5 0 5/64 = 0 0625. Nadalje je:
(X < 8) . .
. .
.
.
.
= 0 781 > 0 5 + 2 33 0 0625 = 0 646 ,
64

zato nielno hipotezo zavrnemo. Odstopanja so torej statistino zelo znailna. To se vidi
+
tudi iz dejstva, da je q0.646
= 7 < 8.

2.3.7

Primerjava parov: test z znaki

Naj bosta na vsaki enoti populacije denirani dve urejenostni spremenljivki: X in Y . Pri
tem je populacija lahko heterogena, torej lahko sestoji iz ve podpopulacij. Testiramo
nielno hipotezo, da sta X in Y na vsaki podpopulaciji enako porazdeljeni.
Za formulacijo alternativne hipoteze pa moramo razumeti stohastino primerjavo porazdelitev. Ideja je, da je X stohastino veja od Y , e obstaja dejavnik, ki vea X na
raun Y , ne obstaja pa dejavnik, ki deluje obratno. Podobno je X stohastino manja
od Y , e obstaja dejavnik, ki manja X na raun Y , ne obstaja pa dejavnik, ki deluje
obratno. Mono je primerjati tudi porazdelitvi dveh spremenljivk na dveh razlinih statistinih mnoicah.
Bolj formalno, X je stohastino veja od Y , e je za vsako ksno vrednost u dele enot,
za katere je X u, veji ali enak deleu enot, za katere je Y u. Dele vselej gledamo v
okviru statistine mnoice, na kateri je denirana posamezna spremenljivka. Nadalje je
X stohastino strogo veja od Y , e je stohastino veja in e obstaja tudi tak u, da je
dele enot, za katere je X u, strogo veji od delea enot, za katere je Y u. Sluajna
spremenljivka X je stohastino (strogo) manja od Y , e je Y stohastino (strogo) manja
od X.
Primer : podatki, kjer je X stohastino strogo veja od Y .

47

M. RAI: STATISTIKA
b

X
Y

Primer : podatki, kjer niti X ni niti stohastino veja niti stohastino manja od Y .
b

X
Y

.
.
Dele enot, kjer je X a, 0 6, je strogo manji od delea enot, kjer je Y a, 0 7.
.
.
Dele enot, kjer je X b, 0 2, je strogo veji od delea enot, kjer je Y b, 0 1.
Opomba. Pri stohastini primerjavi porazdelitev tevilo enot v populacijah ni toliko pomembno: kot smo videli v prejnjih dveh primerih, je lahko tevilo enot, kjer je denirana
prva spremenljivka, razlino od tevila enot, kjer je denirana druga spremenljivka. Prva
spremenljivka je lahko celo denirana na isto drugih enotah kot druga. Res pa je, da v
tem razdelku obravnavamo primer, ko sta spremenljivki denirani na istih enotah, torej
sta tudi tevili enot isti.
Loili bomo tri alternativne hipoteze:
Enostranska v korist X trdi, da je X na vseh delih populacije stohastino veja od
Y in na vsaj enem delu populacije stohastino strogo veja od Y .
Enostranska v korist Y trdi, da je X na vseh delih populacije stohastino manja
od Y in na vsaj enem delu populacije stohastino strogo manja od Y .
Dvostranska trdi, da velja ena od prej omenjenih enostranskih hipotez.
Test z znaki je v resnici test delea enot, na katerih je X < Y , med enotami, na katerih
je X 6= Y . Za dovolj velike vzorce ga lahko izvedemo kot Z-test: naj bo S+ tevilo enot,
za katere je X > Y , S pa tevilo enot, za katere je X < Y . Testna statistika je:
S+ S
Z :=
.
S+ + S
Pri enostranski alternativni hipotezi v korist spremenljivke X izvedemo enostransko
razliico testa v desno: H0 zavrnemo, e je Z > z1 .
Pri enostranski alternativni hipotezi v korist spremenljivke Y izvedemo enostransko
razliico testa v levo: H0 zavrnemo, e je Z < z1 .
Pri dvostranski alternativni hipotezi izvedemo dvostransko razliico testa: H0 zavrnemo, e je |Z| > z1/2 .
Primer : 50 ljudi so pred ogledom in po ogledu lma povpraali, kako se poutijo: zelo
slabo, slabo, srednje, dobro ali zelo dobro. Rezultati so naslednji:6
6

Dejansko so izmiljeni, dobljeni pa so s simulacijo meanice dveh parov porazdelitev.

48

M. RAI: STATISTIKA
pred
srednje
dobro
srednje
dobro
srednje
dobro
srednje
dobro
dobro
zelo dobro
dobro
zelo dobro
dobro
zelo dobro
srednje
srednje
dobro
srednje
dobro
zelo dobro
zelo dobro
zelo dobro
slabo
dobro
srednje

po
srednje
zelo dobro
zelo dobro
srednje
zelo dobro
dobro
dobro
dobro
zelo dobro
zelo dobro
zelo dobro
dobro
srednje
srednje
dobro
dobro
zelo dobro
dobro
zelo dobro
dobro
zelo dobro
dobro
dobro
srednje
zelo dobro

pred
dobro
dobro
zelo dobro
dobro
srednje
srednje
zelo dobro
dobro
dobro
srednje
slabo
srednje
zelo slabo
slabo
slabo
slabo
zelo slabo
srednje
srednje
zelo slabo
srednje
slabo
slabo
slabo
zelo slabo

po
zelo dobro
dobro
zelo dobro
dobro
zelo slabo
zelo dobro
srednje
dobro
dobro
slabo
srednje
srednje
slabo
srednje
srednje
zelo dobro
srednje
slabo
slabo
srednje
dobro
zelo dobro
slabo
slabo
srednje

Testirajmo nielno hipotezo, da ogled lma ne spremeni poutja, proti alternativni


hipotezi, da ga spremeni. Ko pretejemo, dobimo, da se je 12 ljudi pred ogledom poutilo
bolje kot po ogledu, 25 ljudi pa po ogledu bolje kot pred ogledom; 13 ljudi se je pred in
po ogledu poutilo enako. Testna statistika pride:
12 25 .
.
= 2 14 .
Z=
37
.
e testiramo pri stopnji znailnosti = 0 05, moramo |Z| primerjati s kritino vrednostjo
. .
z0.975 = 1 96. Hipotezo zavrnemo, torej je ogled lma na nai skupini statistino znailno
.
vplival na poutje. e pa testiramo pri stopnji znailnosti = 0 01, je kritina vrednost
. .
z0.995 = 2 58 in hipoteze ne zavrnemo: ogled ni vplival statistino zelo znailno.

2.4
2.4.1

Intervalske spremenljivke
Mere centralne tendence

Mera centralne tendence za dano statistino spremenljivko nam grobo povedano da vrednost, proti kateri se nagibajo vrednosti te spremenljivke na statistini mnoici.

49

M. RAI: STATISTIKA

Dve meri centralne tendence smo e spoznali: pri imenskih spremenljivkah je bil to modus, pri urejenostnih pa mediana. Pri intervalskih spremenljivkah pa kot mero centralne
tendence najpogosteje gledamo aritmetino sredino (angl. arithmetic mean):
x =

x1 + x2 + + xn
.
n

Primer : temperature po Sloveniji v ponedeljek, 20. februarja 2012, ob 17. uri (v Celzijevih
stopinjah):
13, 2, 1, 5, 2 .

Aritmetina sredina:

13 + 2 + 1 + 5 + 2
.
= 0 6
5
To seveda ni verodostojna ocena za povpreno temperaturo vseh naseljenih krajev v
Sloveniji, ker vzorec ni reprezentativen, a ve o tem kasneje. Verodostojneja bi bila ocena
za mediano: m = 2. e bi temperaturo 13 stopinj, ki je bila izmerjena na Kredarici,
zamenjali npr. s temperaturo 0 stopinj, izmerjeno v kaknem nije leeem kraju, bi za
povpreje dobili 2 stopinji, mediana pa se ne bi spremenila.
x =

Vasih je aritmetino sredino laje izraunati po u-metodi : za poljubno izhodie u


velja:
(x1 u) + (x2 u) + + (xn u)
x = u +
.
n
Razlikam xi u pravimo tudi odkloni (angl. deviations).

u-metoda izkoria dejstvo, da se, e vsem podatkom pritejemo neko tevilo, tudi
njihova aritmetina sredina povea za to tevilo. To velja tudi za modus in mediano.
Primer :
876, 879, 878, 878, 877 .

e za izhodie vzamemo u = 876, dobimo:


x = 876 +

2.4.2

0+3+2+2+1
.
.
= 876 + 1 6 = 877 6 .
5

Mere razprenosti

Mere razprenosti povedo, za koliko se posamezne vrednosti med seboj razlikujejo. Verjetno najpreprosteja izmed njih je kar razlika med najvejo in najmanjo vrednostjo. Tej
pravimo variacijski razmik (angl. range):
VR = max min .
Variacijski razmik pa navadno ni najbolj verodostojna mera razprenosti, saj ga lahko
e en sam podatek, ki izstopa, znatno spremeni. Verodostojneja in robustneja mera
je variacijski razmik srednje polovice podatkov, natanneje razlika med tretjim in prvim

50

M. RAI: STATISTIKA

kvartilom. Tej pravimo interkvartilni razmik (angl. interquartile range, midspread, middle
fty):
IQR = q3/4 q1/4 .
(e kvartila nista natanno doloena, vzamemo q = (q + q+ )/2).

Lahko gledamo tudi povpreni absolutni odklon (average absolute deviation) od primerne referenne vrednosti. e le-to zaasno oznaimo z u, dobimo koliino:
|x1 u| + |x2 u| + + |xn u|
.
n
Ta koliina je najmanja, e za referenno vrednost u vzamemo mediano. Zato je smiselno
gledati povpreni absolutni odmik od mediane:
AADu =

|x1 m| + |x2 m| + + |xn m|


.
n
eprav mediana ni natanno doloena, je zgornja koliina vedno natanno doloena. Dostikrat za referenno vrednost vzame tudi aritmetina sredina dobimo:
|x1 x| + |x2 x| + + |xn x|
.
AADx =
n
Najlepe raunske lastnosti pa ima standardni odklon:
r
(x1 x)2 + (x2 x)2 + + (xn x)2
s=
,
n
ki ga lahko izraunamo tudi po u-metodi:
r
(x1 u)2 + (x2 u)2 + + (xn u)2
(
x u)2 .
s=
n
Kvadratu standardnega odklona pravimo varianca ali disperzija.
AADm =

Vse omenjene mere razprenosti (IQR, AADm , AADx in s) ostanejo nespremenjene,


e vsem podatkom pritejemo isto tevilo.
Primer :
80, 80, 90, 110, 110, 130, 140, 140, 140, 370 .
Prvi in tretji kvartil sta natanno doloena: q1/4 = 90, q3/4 = 140, torej je IRQ = 50.
Mediana ni natanno doloena je namre kar koli iz intervala [110, 130]. Toda kar
koli iz tega intervala vzamemo za izraun AADm , dobimo isto:

1
2 |80 110| + |90 110| + 2 |110 110| + |130 110| + 3 |140 110| +
10

+ |370 110| = 45 ,

1
2 |80 130| + |90 130| + 2 |110 130| + |130 130| + 3 |140 130| +
10

+ |370 130| = 45 .

M. RAI: STATISTIKA

51

Nadalje velja:
2 (60) + (50) + 2 (30) + (10) + 230
= 139 ,
x = 140 +
10

1
AADx =
2 |80 139| + |90 139| + 2 |110 139| + |130 139| +
10

.
+ 3 |140 139| + |370 139| = 46 8 .
Konno je e:


1/2
2 (80 139)2 + (90 139)2 + 2 (110 139)2 + (130 139)2 + (370 139)2
s=
=
10

2 (80 140)2 + (90 140)2 + 2 (110 140)2 + (130 140)2 + (370 140)2

=
10
1/2
2
(139 140)
=

.
.
= 6449 = 80 3 .
Vse zgoraj omenjene koliine preprosto dobimo iz frekvennih porazdelitev. Omenimo
le izraavo aritmetine sredine:

1
f 1 a1 + f 2 a2 + + f k ak =
n
= f1 a1 + f2 a2 + + fk ak =

1
= u + f1 (a1 u) + f2 (a2 u) + + fk (ak u) =
n
= u + f1 (a1 u) + f2 (a2 u) + + fk (ak u)

x =

in standardnega odklona:
r

1
s=
f1 (a1 x)2 + f2 (a2 x)2 + + fk (ak x)2 =
n
q
= f1 (a1 x)2 + f2 (a2 x)2 + + fk (ak x)2 =
r

1
=
f1 (a1 u)2 + f2 (a2 u)2 + + fk (ak u)2 (u x)2 =
n
q
x u)2 .
= f1 (a1 u)2 + f2 (a2 u)2 + + fk (ak u)2 (

Pravimo, da je x tehtana sredina vrednosti a1 , a2 , . . . , ak z utemi f1 , f2 , . . . , fk . V splonem je tehtana sredina vsak izraz zgornje oblike, pri katerem so utei nenegativne, njihova
vsota pa je 1.

52

M. RAI: STATISTIKA

Primer : pozitivne ocene s kolokvijev pri predmetu Verjetnost in statistika na univerzitetnem tudiju matematike na UL FMF v tudijskem letu 2010/11:
ocena fi
6
13
7
12
8
7
9
3
10
4
Velja:

285 . .
13 6 + 12 7 + 7 8 + 3 9 + 4 10
=
= 7 31 .
39
39
Lahko raunamo tudi po u-metodi:
x =

x = 8 +

13 (2) + 12 (1) + 7 0 + 3 1 + 4 2
27 . .
=8
= 7 31 .
39
39

Za izraun standardnega odklona je navadno potreben kalkulator. Lahko raunamo tako,


da damo x v spomin in vtipkamo:
r
13 (6 x)2 + 12 (7 x)2 + 7 (8 x)2 + 3 (9 x)2 + 4 (10 x)2
s=
=
39
. .
. .
= 1 649 = 1 284 ,
lahko pa raunamo tudi po u-metodi:
r
13 (2)2 + 12 12 + 7 02 + 3 12 + 422
. .
s=
(8 x)2 = 1 284 .
39
Posebej preprosti so izrauni za dihotomne spremenljivke:
e spremenljivka zavzame le vrednosti 0 in 1, je aritmetina sredina enaka kar
relativni frekvenci vrednosti 1.
e spremenljivka zavzame vrednost a z relativno frekvenco q, vrednost b pa z relativno frekvenco p, velja:

AADm = min{p, q}|b a| , AADx = 2pq|b a| , s = |b a| pq .

2.4.3

Standardizacija

Standardizacija je postopek, pri katerem od vrednosti odtejemo aritmetine sredine in


jih delimo s standardnim odklonom. Dobimo standardizirane vrednosti ali vrednosti v
standardnih enotah ali z-vrednosti :
zi =

xi x
.
s

53

M. RAI: STATISTIKA

Standardizirana vrednost ima podobno vlogo kot kvantilni rang, pove nam poloaj posamezne vrednosti glede na skupino. Negativna standardizirana vrednost nam pove, da je
vrednost pod povprejem, pozitivna pa, da je nad povprejem.
Standardizirane vrednosti nam omogoajo primerjavo razlinih spremenljivk, recimo
na isti enoti.
Primer : spet si oglejmo rezultate dveh kolokvijev:

Ambro
Bla
Cvetka
Darja
Emil

83
22
61
45
49

Florjan
Gal
Helena
Iva
Jana
Karmen
Lev
Mojca

84
86
71
67
67
88
89
64

in se vpraajmo, kdo je glede na svoje kolege pisal bolje: Cvetka ali Gal?
e spremenljivko, ki predstavlja rezultat na prvem kolokviju, oznaimo z X, spremenljivko, ki predstavlja rezultat na drugem kolokviju, pa z Y , je pri prvem kolokviju x = 52
in sX = 20, torej je Cvetkina standardizirana vrednost:
61 52
.
= 0 45 .
20
Pri drugem kolokviju pa je y = 77 in sY = 10, torej je Galova standardizirana vrednost:
86 77
.
= 0 9.
10

2.4.4

Zdruevanje vrednosti v razrede

Kadar je vrednosti veliko, frekvence pa so majhne (e so vrednosti zelo natanno izmerjene,


se vsaka od njih tipino pojavi le enkrat), se splaa vrednosti zdruevati v razrede. Pri
tem obstajajo doloena pravila:
Razredi se ne smejo prekrivati.
Pri imenskih spremenljivkah, pri katerih vemo, katere vrednosti so blinje, morajo
razredi obsegati blinje vrednosti.
Pri urejenostnih spremenljivkah mora vsak razred zajemati vrednosti iz doloenega
intervala. Paziti moramo na enoten dogovor, katera krajia intervalov (spodnja,
zgornja) razred vkljuuje in katerih ne.

54

M. RAI: STATISTIKA
Pri intervalskih spremenljivkah lahko doloamo irine razredov. Kadar to delamo,
se morajo sosedni intervali stikati: zgornja meja prejnjega razreda se mora ujemati
s spodnjo mejo naslednjega. Meje so pomembne za doloanje irine razredov (glej
spodaj). Izbiramo imbolj realistine meje: e so podatki, ki so na voljo, zaokroeni,
poskusimo predvideti, iz katerih realnih vrednosti je lahko bila dobljena posamezna
zaokroena vrednost. Ne gre vedno za najblijo vrednost starost se zaokrouje
navzdol.
Vasih kakne vrednosti izstopajo (takim se v angleini ree outliers). Te je smiselno prikazati posebej.

Ni enotnega pravila, koliko razredov narediti oziroma kako iroki naj bodo.
V splonem se lahko drimo e omenjenega pravila tretjega korena, po katerem
podatke razdelimo na priblino n1/3 razredov po priblino n2/3 enot.
e elimo dobiti enako iroke razrede, FreedmanDiaconisovo
pravilo [19] pravi, naj

bo irina posameznega razreda priblino 2 IQR/ 3 n.


e so razredi in z njimi tudi stolpci v histogramu razlino iroki, je pomembno, da
so (relativne) frekvence sorazmerne ploinam in ne irinam stolpcev. Viine stolpcev
pa so sorazmerne gostotam frekvenc (angl. frequency densities). e je fi frekvenca, di
pa irina i-tega razreda, je gostota frekvence njun kvocient, lahko pa deniramo tudi
relativno gostoto:
f
fi
gi = , gi = i .
di
di
Zaradi laje berljivosti gostote frekvenc esto preraunamo na doloeno irino razreda.
Primer : razporeditev tok v svetovnem pokalu v alpskem smuanju za enske, sezona
2012/13.7 Tekmuje 116 smuark. Toke:
2414, 1101, 1029, 867, 822, 787, 759, 740, 662, 615, 512, 500, 460, 448, 435, 423, 406, 395, 381, 359, 349, 323, 323, 314, 310, 292, 273, 269,
269, 266, 264, 263, 261, 251, 236, 219, 215, 212, 209, 203, 198, 192, 180, 180, 172, 170, 162, 157, 156, 150, 148, 134, 127, 127, 127, 127, 125,
124, 115, 109, 109, 106, 104, 100, 95, 91, 80, 78, 74, 72, 69, 66, 60, 58, 53, 50, 44, 43, 39, 38, 36, 36, 33, 32, 32, 31, 30, 29, 28, 26, 24, 24, 22,
22, 21, 17, 16, 16, 15, 15, 15, 14, 13, 11, 10, 10, 9, 9, 8, 8, 6, 6, 6, 5, 3, 3

Po pravilu tretjega korena mora biti v posameznem razredu priblino


smuark. Temu sledi naslednja frekvenna tabela:

.
.
1162 = 23 8

Toke
Frekvenca Gostota Rel. gostota Rel. gostota na 1000 tok
.
.
.
0 manj kot 25
26
1 040
0 00897
8 97
.
.
.
25 manj kot 75
22
0 440
0 00379
3 79
.
.
.
75 manj kot 150
18
0 240
0 00207
2 07
.
.
.
150 manj kot 300
25
0 167
0 00144
1 44
.
.
.
300 manj kot 1000
22
0 031
0 00027
0 27
1000
3

Presneto 27. 3. 2013 s strani


http://www.fis-ski.com/uk/disciplines/alpine-skiing/cupstandings.html.
7

55

M. RAI: STATISTIKA
iz katere dobimo naslednji histogram:
Rel. frekv.
na 1000 tok

10
8
6
4

Anna Fenninger
b

200

400

600

800

Tina Maze

Maria HRiesch

2
b

1000

1200

1400

1600

1800

2000

2200

2400x

Jasneji prikaz glavnine smuark:


10

Rel. frekv.
na 1000 tok

8
6
4
2
100

200

300

400

500

600

700

800

900

1000

1100

Za irino razredov po FreedmanDiaconisovem pravilu pa moramo najprej doloiti vrstilne


statistike:
1
116 = 29 , x(29) = 29 , x(30) = 30 ,
4

3
116 = 87 , x(87) = 266 , x(88) = 269 .
4

Prvi in tretji kvantil sta priblino q1/4 30 in q3/4 270, torej mora biti irina razreda
priblino:
480
2 (270 30)

= 96 100 .
3
5
116
Dobimo naslednjo frekvenno tabelo:

56

M. RAI: STATISTIKA
Toke
Frekvenca Rel. frekvenca
.
0 manj kot 100
52
0 452
.
100 manj kot 200
24
0 209
.
200 manj kot 300
15
0 130
.
300 manj kot 400
8
0 067
.
400 manj kot 500
5
0 043
.
500 manj kot 600
2
0 017
.
600 manj kot 700
2
0 017
.
700 manj kot 800
3
0 026
.
800 manj kot 900
2
0 017
.
900 manj kot 1000
0
0 000
.
1000 manj kot 1100
2
0 017
..
..
..
.
.
.
.
2400 manj kot 2500
1
0 009

Histogram:
fi
0.5

0.4

0.3

0.2

0.1

200

2.4.5

400

600

800

1000

1200

1400

1600

1800

2000

2200

2400

2600

Normalna (Gaussova) porazdelitev

Normalna ali Gaussova porazdelitev je v statistiki zgolj idealizacija. Statistina spremenljivka X je porazdeljena priblino normalno s povprejem in standardnim odklonom ,
e je dele enot, za katere X lei med a in b, kjer je a < b, priblino:




Z b
(x)2
b

e 22 dx =

2 a
Drugae prikazano, histogram porazdelitve sledi Gaussovi krivulji:

57

M. RAI: STATISTIKA

in dele enot, za katere X lei med a in b, je priblino ploina raranega obmoja,


deljena s ploino pod celotno krivuljo.
Normalna porazdelitev bi pomenila, da:
.
znotraj intervala od do + lei priblino 68 3% enot;
.
znotraj intervala od 2 do + 2 lei priblino 95 5% enot;
.
znotraj intervala od 3 do + 3 lei priblino 99 7% enot.
Na nobeni statistini mnoici (iz konno mnogo, etudi veliko enot) to ne more veljati
za vse a in b. Res pa je, da ve kot je enot, natanneje je to lahko doseeno. Res pa je tudi,
da veliko enot e malo ni jamstvo za normalno porazdelitev. Tako je npr. porazdelitev tok
v svetovnem pokalu iz alpskega smuanja iz prejnjega razdelka dale stran od normalne.
Normalna porazdelitev bi pomenila tudi neskonen variacijski razmik, kar je e en
dokaz za to, da nobena konna statistina mnoica ne more imeti tono normalne porazdelitve. Na konni statistini mnoici je variacijski razmik vedno konen; a e elimo
vedeti, koliko pribino bo enak, predpostavka o priblini normalnosti ni dovolj, potrebujemo e velikost mnoice. Veja kot je mnoica, veji variacijski razmik lahko priakujemo.
Ob priblini normalnosti je pri statistini mnoici iz 100 enot variacijski razmik enak priblino 5, pri mnoici iz 10000 enot pa priblino 8. Precej natanneje pa je doloen
.
interkvartilni razmik: ta je ne glede na velikost statistine mnoice enak priblino 1 35 .
Porazdelitev intervalske statistine spremenljivke na doloeni statistini mnoici je
priblino normalna, e sta izpolnjena naslednja dva pogoja:
Statistina mnoica je velika, vrednosti spremenljivke na posameznih enotah pa so
sluajne, neodvisne in sledijo istemu verjetnostnemu zakonu.
Verjetnostni zakon, ki doloa vrednost spremenljivke na posamezni enoti, deluje
tako, da je vrednost rezultat velikega tevila med seboj neodvisnih sluajnih vplivov,
ki se med seboj setevajo, nimajo prevelikih ekscesov in med katerimi nobeden
posebej ne izstopa.
Prvi pogoj pride iz zakonov velikih tevil, natanneje GlivenkoCantellijevega izreka,
ki pravi naslednje: e je statistina mnoica velika, vrednosti spremenljivke na posameznih enotah pa so sluajne, neodvisne in sledijo istemu verjetnostnemu zakonu, t. j. isti

58

M. RAI: STATISTIKA

verjetnostni porazdelitvi, se porazdelitev spremenljivke na statistini mnoici (empirina


porazdelitev ) priblino ujema s prej omenjeno verjetnostno porazdelitvijo.8 To se zgodi,
e je statistina mnoica enostavni sluajni vzorec iz velike populacije: v tem primeru se
porazdelitev na vzorcu priblino ujema s porazdelitvijo na populaciji.
Drugi pogoj pa pride iz centralnega limitnega izreka, ki pravi, da je sluajna spremenljivka, ki je rezultat veliko neodvisnih vplivov, ki se med seboj setevajo, nimajo prevelikih
ekscesov in med katerimi nobeden posebej ne izstopa, porazdeljena priblino normalno.
Primer : simulacija 100 metov 30 potenih kovancev. Vsak met predstavlja enoto, statistina spremenljivka pa je skupno tevilo cifer na vseh kovancih v posameznem metu.
Histogram skupaj s pripadajoim histogramom verjetnostne porazdelitve (ki bi jo dobili
pri veliko metih) in Gaussovo krivuljo, ki predstavlja idealizacijo:
0.15

0.1

0.05

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Razkorak med histogramom in Gaussovo krivuljo lahko nastopi tako zaradi napake
v centralnem limitnem izreku kot tudi zaradi napake v centralnem limitnem izreku (oba
govorita o priblini enakosti porazdelitev, torej dopuata doloeno napako). Razkorak v
zgornjem primeru nastopi predvsem zaradi priblinosti v GlivenkoCantellijevem izreku in
manj zaradi priblinosti v centralnem limitnem izreku. Napaka v GlivenkoCantellijevem
izreku se zmanja, e poveamo tevilo metov.
Primer : simulacija 10.000 metov 30 potenih kovancev (ostalo isto kot pri prejnjem
primeru):
Natanneje, GlivenkoCantellijev izrek nam zagotavlja bliino kumulativnih porazdelitvenih funkcij,
s tem pa tudi majhno absolutno napako pri intervalskih verjetnostih.
8

M. RAI: STATISTIKA

59

0.15

0.1

0.05

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Vidimo, da je razkorak drastino manji. Razkorak v naslednjem primeru pa je le


prispevek napake v centralnem limitnem izreku.
Primer : verjetnostna porazdelitev metov 30 potenih kovancev (ki bi jo dobili, e bi
poskus ponovili velikokrat):
0.15

0.1

0.05

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Pri prej prikazanih metih kovanca statistina spremenljivka preteva cifre. Centralni
limitni izrek pa dopua tudi setevanje, ki je posploitev pretevanja.
Primer : verjetnostna porazdelitev pri metih 30 potenih kock, statistina spremenljivka
je skupno tevilo pik na vseh 30 kockah pri posameznem metu:

60

M. RAI: STATISTIKA

0.04

0.03

0.02

0.01

70

2.4.6

80

90

100

110

120

130

140

Tokasto ocenjevanje

Ocenjevali bomo aritmetino sredino na populaciji, ki jo bomo oznaili z , in standardni


odklon na populaciji, ki ga bomo oznaili s . Privzeli bomo, da je populacija velika in da
imamo na voljo enostavni sluajni vzorec, na katerem opazimo vrednosti x1 , x2 , . . . , xn .
Cenilka za aritmetino sredino na populaciji je kar vzorna aritmetina sredina:

= x =

x1 + x2 + + xn
.
n

Pri ocenjevanju standardnega odklona pa naredimo manji popravek: za oceno populacijskega standardnega odklona vzamemo:
r
(x1 x)2 + (x2 x)2 + + (xn x)2
.

= s+ =
n1

Razlog za ta popravek je, da je potem s2+ nepristranska cenilka za 2 , kar pomeni, da bi


se, e bi jemali vedno ve neodvisnih vzorcev iste velikosti in vsaki ocenili standardni
odklon, povpreje ocen za kvadrat standardnega odklona blialo dejanskemu kvadratu
standardnega odklona populacije 2 , medtem ko se, e bi vzeli nepopravljen standardni
odklon, to ne bi zgodilo.
Primer : oglejmo si vzorec, na katerem ima statistina spremenljivka vrednosti:
101, 91, 93, 103, 91, 101, 103, 95, 95 .
Dobimo:

=
in:

101 + 91 + 93 + 103 + 91 + 101 + 103 + 95 + 95


= 97
9

 
1

=
(101 97)2 + (91 97)2 + (93 97)2 + (103 97)2 + (91 97)2 +
8
1/2
2
2
2
2
+ (101 97) + (103 97) + (95 97) + (95 97)
=
= 5.

61

M. RAI: STATISTIKA

2.4.7

Intervalsko ocenjevanje in testiranje

To bomo obravnavali intervalsko ocenjevanje in testiranje populacijske sredine in standardnega odklona , a ob dodatni predpostavki, da je na populaciji, iz katere dobivamo
podatke, naa statistina spremenljivka porazdeljena normalno. Za primer, ko ocenjujemo
ali testiramo sredino, so metode do doloene mere robustne: e je vzorec dovolj velik, e
vedno delujejo e, e je porazdelitev spremenljivke dovolj lepa, a ne nujno normalna
predvsem morata obstajati matematino upanje in varianca. To sledi iz centralnega
limitnega izreka. Drugae pa je pri standardnem odklonu: predpostavka o normalni porazdelitvi je tu kljuna. Obstajajo pa bolj zapletene konstrukcije, ki za velike n priblino
delujejo tudi pri porazdelitvah, ki niso normalne, so pa dovolj lepe.
Sredina pri znanem standardnem odklonu
Privzemimo, da nas zanima , pri emer poznamo. V tem primeru poznamo tudi
standardno napako:

SE = .
n
Potrebovali bomo e kvantil normalne porazdelitve c = z(1+)/2 . Spomnimo se:
. .
z0.95 = 1 65 ,

. .
z0.975 = 1 96 ,

. .
z0.99 = 2 33 ,

. .
z0.995 = 2 58 .

Spodnja in zgornja meja intervala zaupanja za sta:


min =
c SE ,

max =
+ c SE .

Primer : e bi pri vzorcu iz prejnjega primera vedeli, da je = 5, bi pri = 95%


izraunali:

min

5 . .
. .
SE = = 1 667 , c = 1 96 ,
9
.
.
.
.
.
.
.
.
.
.
= 97 1 96 1 667 = 93 73 , max = 97 + 1 96 1 667 = 100 27 .

Opomba. e poveamo velikost vzorca, se standardna napaka zmanja. Z drugimi besedami, ve kot imamo na voljo podatkov, natanneje so nae ocene.
Zdaj pa si oglejmo e testiranje nielne hipoteze, da je = . Tako kot pri testiranju
delea bomo obravnavali tri alternativne hipoteze: da je 6= (dvostranski test), da je
> (enostranski test v desno) in da je > (enostranski test v levo). Testiramo
z Z-testom brez popravka na testni statistiki, ki je razmerje med opaeno razliko in
standardno napako:
x
,
Z=
SE
e alternativna hipoteza trdi, da je 6= , izvedemo dvostranski test: nielno
hipotezo zavrnemo, e je |Z| > z1/2 .

62

M. RAI: STATISTIKA
e alternativna hipoteza trdi, da je > , izvedemo enostranski test v desno:
nielno hipotezo zavrnemo, e je Z > z1 .
e alternativna hipoteza trdi, da je < , izvedemo enostranski test v levo: nielno
hipotezo zavrnemo, e je Z < z1 .

Primer . Meritve neke koliine, porazdeljene normalno N(, 5), dajo naslednje vrednosti:
101, 91, 93, 103, 91, 101, 103, 95, 95
. .
Ta vzorec ima x = 97 in SE = 1 667.
Testirajmo nielno hipotezo, da je = 100. V tem primeru testna statistika pride
.
Z = 1 8. Sicer pa moramo test e dorei. Ogledali si bomo ve razliic.
.
Pri stopnji znailnosti = 0 05 testirajmo nielno hipotezo proti alternativni hipotezi, da je 6= 100. To pomeni, da moramo absolutno vrednost testne statistike,
. .
.
|Z| = 1 8, primerjati z z0.975 = 1 96. Vidimo, da nielne hipoteze ne moremo zavrniti. Z drugimi besedami, odstopanja niso statistino znailna.
.
e vedno pri stopnji znailnosti = 0 05 testirajmo nielno hipotezo proti alterna.
tivni hipotezi, da je < 100. Testno statistiko Z = 1 8 moramo zdaj primerjati
.
.
z z0.95 = 1 65. To pomeni, da nielno hipotezo zdaj zavrnemo. Z drugimi besedami, odstopanja v levo so statistino znailna.
.
e vedno pri stopnji znailnosti = 0 05 testirajmo nielno hipotezo proti alterna.
tivni hipotezi, da je < 100. Testno statistiko Z = 1 8 moramo zdaj primerjati
.
.
z z0.95 = 1 65. To pomeni, da nielno hipotezo zdaj zavrnemo. Z drugimi besedami, odstopanja v levo so statistino znailna. e smo obutljivi le na eno stran,
smo lahko tam bolj restriktivni.
.
e vedno pri stopnji znailnosti = 0 05 testirajmo nielno hipotezo proti alterna.
tivni hipotezi, da je > 100. Testno statistiko Z = 1 8 moramo zdaj primerjati z
. .
z0.95 = 1 65. Nielne hipoteze seveda ne zavrnemo. Odstopanja v desno ne morejo
biti statistino znailna, e povpreje od nielne hipoteze odstopa v levo.
.
Tokrat pri stopnji znailnosti = 0 01 testirajmo nielno hipotezo proti alternativni
.
hipotezi, da je < 100. Testno statistiko Z = 1 8 moramo zdaj primerjati z
.
.
z0.99 = 2 33 in vidimo, da nielne hipoteze zdaj ne moremo zavrniti. Odstopanja
v levo so torej sicer statistino znailna, niso pa zelo znailna.
Sredina pri neznanem standardnem odklonu
e standardni odklon ni znan, se da metode iz prejnjega podrazdelka prilagoditi tako,
da standardni odklon nadomestimo z njegovo oceno. Tako je standardna napaka zdaj
enaka:

s+
SE = = .
n
n

63

M. RAI: STATISTIKA

Kvantile standardne normalne porazdelitve pa moramo nadomestiti s kvantili Studentove 9


porazdelitve. Studentova porazdelitev je v resnici cela druina porazdelitev, ki se razlikujejo glede na tevilo prostostnih stopenj df (angl. degrees of freedom). Intuitivno lahko
tevilo prostostnih stopenj pri Studentovi porazdelitvi gledamo kot koliino informacije,
ki jo imamo na voljo za oceno standardnega odklona. V naem primeru je df = n 1, to
pa zato, ker smo eno enoto informacije e porabili za ocenjevanje sredine: e bi sredino
poznali, bi bilo df = n. Kvantil Studentove porazdelitve z df prostostnimi stopnjami
za verjetnost p oznaimo s tp (df ). Kvantile lahko oditamo iz tabel ali pa izraunamo s
pomojo ustrezne programske opreme.
Spodnja in zgornja meja intervala zaupanja za sredino imata enako obliko kot prej:
min =
c SE ,

max =
+ c SE ,

le da je zdaj c = t(1+)/2 (n 1).


Primer : e pri vzorcu iz prejnjega primera populacijskega standardnega odklona ne bi
poznali, bi pri = 95% izraunali:

min

5 . .
SE = = 1 667 ,
9
.
.
.
.
.
= 97 2 31 1 667 = 93 14 ,

. .
c = t0.975 (8) = 2 31 ,
.
.
.
.
.
max = 97 + 2 31 1 667 = 100 86 .

Interval zaupanja je zdaj malo iri: ker zdaj manj vemo, je tudi naa ocena manj natanna.
Podobno modiciramo tudi testiranje. Nielno hipotezo, da je = , testiramo s
T -testom z n 1 prostostnimi stopnjami na testni statistiki, ki je spet razmerje med
opaeno razliko in standardno napako:
T :=

x
,
SE

kjer je spet SE = .
n
T -test z df prostostnimi stopnjami na testni statistiki T ima spet tri razliice.
Pri dvostranski razliici nielno hipotezo zavrnemo, e je |T | > t1/2 (n 1).
Pri enostranski razliici v desno nielno hipotezo zavrnemo, e je T > t1 (n 1).
Pri enostranski razliici v levo nielno hipotezo zavrnemo, e je T < t1 (n 1).
Vrednosti t1/2 (n 1) oz. t1 pravimo kritina vrednost.

Tako kot pri Z-testu uporabimo dvostransko razliico, e alternativna hipoteza trdi
da je 6= , enostransko razliico v desno, e trdi, da je > , in enostransko razliico
v levo, e trdi, da je < .
9

Ime ji je dal William Sealy Gosset, ki je pisal pod psevdonimom Student.

64

M. RAI: STATISTIKA

.
Primer . Isti vzorec kot pri prejnjem primeru, le da ne vemo, da je = 5. Pri = 0 05
testiramo nielno hipotezo, da je = 100, proti alternativni hipotezi, da je < 100.
. .
.
Spomnimo se, da je x = 97. Izraunajmo e
= 5, SE = 1 667 in od tod T = 1 8, kar
.
.
primerjamo z t0.95 (8) = 2 31. Tokrat nielne hipoteze ne moremo zavrniti: odstopanja
v levo niso statistino znailna. Nauk: e doloene rei (recimo standardnega odklona) ne
poznamo v popolnosti, moramo biti bolj previdni tako kot smo bili tudi pri intervalskem
ocenjevanju.
Standardni odklon pri neznani sredini
Pri standardnem odklonu bomo potrebovali porazdelitev hi kvadrat. Spomnimo se, da
2p (df ) oznauje kvantil porazdelitve hi kvadrat z df prostostnimi stopnjami za verjetnost
p. V naem primeru bo spet df = n 1.
Pri konstrukciji intervalov zaupanja bomo potrebovali kvantila:
c1 = 2(1)/2 (n 1) ,
Spodnja in zgornja meja bosta enaki:
r
n1
min =

,
c2

c2 = 2(1+)/2 (n 1) .

max =

n1
.
c1

Pri vzorcu iz prejnjega primera bi pri = 95% izraunali:


. .
.
.
c1 = 20.025 (8) = 2 18 , c2 = 20.975 (n 1) = 17 5 ,
r
r
8 . .
8 . .
min = 5
. = 3 38 , max = 5
. = 9 58 .
17 5
2 18
Oglejmo si e testiranje. Standardni odklon testiramo s testom hi kvadrat z n 1
prostostnimi stopnjami na testni statistiki:
2 := (n 1)

2
.
( )2

Podobno kot pri testu sredine imamo tudi tukaj tri razliice testa.
Pri dvostranski razliici nielno hipotezo zavrnemo, e je 2 < 2/2 (n 1) ali
2 > 21/2 (n 1).
Pri enostranski razliici v desno nielno hipotezo zavrnemo, e je 2 > 21 (n 1).
Pri enostranski razliici v levo nielno hipotezo zavrnemo, e je 2 < 2 (n 1).
Dvostransko razliico uporabimo, e alternativna hipoteza trdi da je 6= , enostransko
razliico v desno uporabimo, e alternativna hipotezam trdi, da je > , enostransko
razliico v levo pa, e trdi, da je < .

M. RAI: STATISTIKA

65

Primer . Meritve neke koliine, porazdeljene normalno N(, ), dajo naslednje vrednosti:
99, 90, 108, 111, 97, 93, 90, 106, 104, 102
.
Pri = 0 05 testirajmo nielno hipotezo, da je = 5, proti alternativni hipotezi, da je
. .
6= 5. Izraunajmo
= 7 45 in 2 = 20, kar moramo primerjati s kritinima vrednostma
. .
.
.
20.025 (9) = 2 70 in 20.025 (9) = 19 0. Torej hipotezo zavrnemo, odstopanja so statistino
znailna.
Primerjava povpreij dveh spremenljivk na istih enotah
Denimo, da imamo za vsako enoto dani dve intervalski spremenljivki, X in Y . Oznaimo
z X aritmetino sredino prve, z Y pa aritmetino sredino druge spremenljivke na celotni populaciji. Testiramo nielno hipotezo, da je X = Y , alternativno hipotezo pa
lahko postavimo na tri naine: dvostransko X 6= Y , enostransko v desno X > Y in
enostransko v levo X < Y .
Ta test se prevede na obiajni T -test za eno spremenljivko, ki je kar razlika X Y . e
so torej x1 , . . . , xn vrednosti prve, y1 , . . . , yn pa vrednosti druge spremenljivke na vzorcu,
izraunamo:
s
2
2
(x1 y1 ) (
x y) + + (xn yn ) (
x y)
s+ =
,
n1
s+
x y
SE = ,
.
T =
SE
n
Nadaljujemo kot obiajno pri T -testu. e alternativna hipoteza trdi, da je X 6= Y
(dvostranski test), nielno hipotezo zavrnemo, e je |T | > t1/2 (n 1), e trdi, da je
X > Y (enostranski test v desno), jo zavrnemo, e je T > t1 (n 1), e pa trdi, da je
X < Y (enostranski test v desno), jo zavrnemo, e je T < t1 (n 1).
Primer . Pri predmetu Analiza III na Interdisciplinarnem tudiju raunalnitva in matematike na Univerzi v Ljubljani se pieta dva kolokvija. Rezultati tudentov, ki so v
tudijskem letu 2008/09 pisali oba kolokvija, so zbrani v naslednji tabeli:

66

M. RAI: STATISTIKA

Povpreje

1. kolokvij (X) 2. kolokvij (Y ) X Y


89
96
7
59
65
6
51
79
28
98
99
1
46
68
22
79
60
19
68
65
3
63
85
22
73
65
8
52
73
21
82
97
15
82
100
18
50
95
45
46
80
34
.
.
.
67 0
80 5
13 5

Od tod izraunamo:
.
.
s+ = 17 30 ,

. .
SE = 4 624 ,

.
.
T = 2 92 .

Izvedemo dvostranski test. Podatkov je 14, torej je prostostnih stopenj 13. Ker je
. .
.
t0.975 (13) = 2 16, nielno hipotezo pri = 0 05 zavrnemo razlika med kolokvijema je sta. .
.
tistino znailna. Pri = 0 01 pa vrednost testne statistike primerjamo s t0.995 (13) = 3 01
in dobimo, da razlika ni statistino zelo znailna.
Zgoraj opisani test velja ob predpostavki, da je porazdelitev normalna ali dihotomna
ali pa da je vzorec dovolj velik. e temu ni tako, lahko namesto T -testa izvedemo test z
znaki. V naem primeru pride:
8 .
.
Z = = 2 14 .
14
. .
. .
.
.
Pri = 0 05 to primerjamo z z0.975 = 1 96, pri = 0 01 pa z z0.995 = 2 58. Spet dobimo,
da je razlika statistino znailna, ni pa zelo znailna.
S+ = 3 ,

S = 11 ,

Testiranje normalne porazdelitve


Orodja iz inferenne statistike (intervalskega ocenjevanja in testiranja hipotez) za intervalske spremenljivke, opisana v tem razdelku, so zasnovana ob predpostavki, da ima
statistina spremenljivka normalno (Gaussovo) porazdelitev. Ta predpostavka ni vedno
izpolnjena in zastavi se vpraanje, ali jo lahko preverimo. Kot nasploh v inferenni statistiki ne more obstajati algoritem, ki bi na podlagi vzorca dal odgovor da ali ne glede
porazdelitve na populaciji, e zlasti pa ne z gotovostjo. Lahko pa hipotezo o normalnosti
testiramo.

67

M. RAI: STATISTIKA

Testov normalne porazdelitve je veliko. V veini primerov so najustrezneji t. i. prilagoditveni testi (angl. goodness of t), ki merijo, koliko empirina (vzrona) porazdelitev odstopa od normalne (ali nasprotno, kako tesno se ji prilega). Tu bomo spoznali
AndersonDarlingov test, natanneje, DAgostinovo modikacijo tega testa [17]. Podatke
najprej uredimo po velikosti naredimo ranirno vrsto:
X(1) X(2) X(n) .
Spomnimo se: X(i) je i-ta vrstilna statistika. Podatke standardiziramo za ta namen
izraunamo aritmetino sredino in popravljeni vzorni standardni odklon:
v
u
n
u 1 X
X
+
X
+

+
X
1
2
n
t

2.
X=
,
s+ =
(Xi X)
n
n 1 i=1
+ . Potrebovali bomo standardizirane vrStandardizirane vrednosti so Zi := (Xi X)/s
+ . Iz njih izraunamo AndersonDarlingovo testno
stilne statistike Z(i) := (X(i) X)/s
statistiko:




n 
1X
1
1
2
A = n
+ (Z(i) ) + (2n 2i + 1) ln
(Z(i) )
.
(2i 1) ln
n i=1
2
2

Tu je Gaussov verjetnostni integral:


1
(x) =
2

ez

2 /2

dz .

Vrednosti te funkcije lahko oditamo iz tabele. Kot smo e omenili, bomo uporabili
DAgostinovo modikacijo testa, ki temelji na naslenjem popravku AndersonDarlingove
statistike:

.
. 
0 75 2 25
2
2
+ 2
A =A 1+
n
n
Nielno hipotezo o normalnosti zavrnemo:
.
.
pri stopnji znailnosti = 0 05, e je A2 > 0 752;
.
.
pri stopnji znailnosti = 0 01, e je A2 > 1 035.

Primer . Oglejmo si vzorec, na katerem ima statistina spremenljivka vrednosti:


101, 91, 93, 103, 91, 101, 103, 95, 95 .
Vrednosti uredimo po velikosti:
91, 91, 93, 95, 95, 101, 101, 103, 103 .
= 97 in s+ = 5 dobimo standardizirane vrednosti:
Iz X
.
.
.
.
.
.
.
.
.
1 2, 1 2, 0 8, 0 4, 0 4, 0 8, 0 8, 1 2, 1 2 .

68

M. RAI: STATISTIKA

AndersonDarlingova statistika je enaka:


1h
.
.
.
.
.
A2 = 9 1 ln 0 1151 + 17 ln 0 8849 + 3 ln 0 1151 + 15 ln 0 8849 +
9
.
.
.
.
+ 5 ln 0 2119 + 13 ln 0 7881 + 7 ln 0 3446 + 11 ln 0 6554 +
.
.
.
.
+ 9 ln 0 3446 + 9 ln 0 6554 + 11 ln 0 7881 + 7 ln 0 2119 +
.
.
.
.
+ 13 ln 0 7881 + 5 ln 0 2119 + 15 ln 0 8849 + 3 ln 0 1151 +
i
.
.
.
+ 17 ln 0 8849 + 1 ln 0 1151 =
. .
= 0 5342 ,
modicirana vrednost pa je enaka:
2


. 
.
0 75 2 25 . .
. .
+
= 0 5936 .
= 0 5342 1 +
9
81

.
.
Ker je 0 5936 < 0 752, odstopanja od normalne porazdelitve niso statistino znailna.
e so vrednosti podane v frekvenni tabeli:
vrednosti frekvence kumulativne frekvence
a1
f1
F1
a2
f2
F2
..
..
..
.
.
.
ak
fk
Fk
jih najprej spet standardiziramo izraunamo:
v
u
k
k
k
X
X
u 1 X
1
t
2,

f j aj , s + =
fj (aj X)
n=
fj = F k , X =
n
n

1
j=1
j=1
j=1

bj =

aj X
.
s+

AndersonDarlingova testna statistika je enaka:







k
1
1X
1
2
fj (Fj1 + Fj ) ln
+ (bj ) + (2n Fj1 Fj ) ln
(bj )
,
A = n
n j=1
2
2
modicirana statistika A2 pa se iz A2 seveda dobi na isti nain kot prej.
Primer . Za 860 ensk poizvemo, koliko otrok imajo. Dobimo naslednjo frekvenno porazdelitev:
tevilo otrok
0
1
2 3 4 5 6 7 8 9 10
tevilo ensk 227 168 320 96 29 11 4 2 2 0 1
.
.
Povpreno tevilo otrok na ensko je 1 548, popravljeni standardni odklon pa je 1 304.
Standardiziramo in izraunamo kumulativne frekvence (razred, ki ni zastopan, pa lahko
izpustimo):

69

M. RAI: STATISTIKA

.
.
.
.
.
.
.
.
.
.
bj 1 187 0 420 0 347 1 114 1 880 2 647 3 414 4 181 4 947 6 481
fj
227
168
320
96
29
11
4
2
2
1
Fj
227
395
715
811
840
851
855
857
859
860
Fj1 + Fj
227
622 1110 1526 1651 1691 1706 1712 1716 1719
AndersonDarlingova statistika je enaka:
 

1
.
.
2 .
A = 860
227 227 ln 0 1177 + 1493 ln 0 8823 +
860


.
.
+ 168 622 ln 0 3373 + 1098 ln 0 6627 +


.
.
+ 320 1110 ln 0 6356 + 610 ln 0 3654 +


.
.
+ 96 1526 ln 0 8672 + 194 ln 0 1328 +


.
.
+ 29 1651 ln 0 96997 + 69 ln 0 03003 +


.
.
+ 11 1691 ln 0 995941 + 29 ln 0 004059 +



.
.
+ 4 1706 ln 1 3 202 104 + 14 ln 3 202 104 +



.
.
5
5
+
+ 8 ln 1 452 10
+ 2 1712 ln 1 1 452 10




.
.
+ 2 1716 ln 1 3 760 107 + 4 ln 3 760 107 +




.
.
11
11
+ 1 1719 ln 1 4 556 10
+ 1 ln 4 556 10
.
.
= 35 036 .


.
225
0 75
.
.
+
= 35 066. Ker je to veje od
Modicirana vrednost pa je 35 036 1 +
860
8602
.
1 035, je odstopanje od normalne porazdelitve tokrat statistino zelo znailno.
.

Pomembno: e vrednosti Gaussovega verjetnostnega integrala oditavamo iz tabele in


pademo izven tabeliranega obmoja, ne smemo vedno vzeti kar (z) 1/2. To vedno
privede do ln 0 ali ln 1. Pribliek ln 1 = 0 je dober, medtem ko vrednost ln 0 ni denirana.
Namesto priblika (z) 1/2 pa lahko vzamemo priblini obrazec:
1
1
2
(z) ez /2 ,
2
z 2
ki velja, ko gre z proti plus neskonno.

70

M. RAI: STATISTIKA

3.
Povezanost dveh statistinih
spremenljivk bivariatna analiza
V tem poglavju se bomo ukvarjali z dvema statistinima spremenljivkama, deniranima
na isti statistini mnoici. Nauili se bomo dve stvari:
Za vsak par merskih lestvic bomo poiskali tevilsko karakteristiko, ki bo vrednotila
stopnjo povezanosti med spremenljivkama. eprav vse karakteristike niso neposredno primerljive, bomo povedali, katera vrednost doloene karakteristike ustreza
doloeni vrednosti druge karakteristike. Uvedli pa bomo tudi opisno (kvalitativno)
lestvico povezanosti: neznatna, nizka, zmerna, visoka in zelo visoka. To bo olajalo
primerjavo karakteristik.
Za primer, ko je naa statistina mnoica enostavni sluajni vzorec iz velike populacije, pa bomo za vsak par merskih lestvic konstruirali tudi test hipoteze, da sta
statistini spremenljivki na celi populaciji nepovezani (neodvisni). Tako bo povezanost lahko statistino neznailna, znailna ali zelo znailna. Statistina znailnost
(p-vrednost) je drug pojem kot stopnja povezanosti na vzorcu: pri majhnih vzorcih
se lahko zgodi, da je povezanost visoka, a statistino neznailna. Pri velikih vzorcih
pa se lahko zgodi celo, da je povezanost kvalitativno ovrednotena kot neznatna, a
je statistino zelo znailna.
POZOR! Povezanost dveh statistinih spremenljivk e ne pomeni, da ena od njiju
neposredno vpliva na drugo povezanost ne implicira vzronosti. Navadno povezanost
nastane zaradi tega, ker na obe spremenljivki vpliva neka tretja spremenljivka (lahko zelo
posredno), le-to pa je dostikrat teko doloiti.

71

72

M. RAI: STATISTIKA

3.1

Povezanost dveh imenskih spremenljivk: asociiranost

3.1.1

Vrednotenje asociiranosti

Asociiranost ugotavljamo na podlagi kontingenne tabele, kjer so podane frekvence za vse


mone kombinacije vrednosti prve in druge spremenljivke:

a1
a2
..
.
ak

b1 b2
f11 f12
f21 f22
..
..
.
.
fk1 fk2
f1 f2

bl
f1l
f2l
. . . ..
.
fkl
fl

f1
f2
..
.
fk
n

Pri tem so:


a1 , a2 , . . . , ak vrednosti prve spremenljivke, npr. X;
b1 , b2 , . . . , bl vrednosti druge spremenljivke, npr. Y ;
fij navzkrine frekvence (angl. joint frequencies, cross-frequencies): navzkrina frekvenca fij pove, na koliko enotah je X = ai in hkrati Y = bj ali s formulo:
fij = (X = ai , Y = bj ) ;
fi in fj robne frekvence (angl. marginal frequencies): robne frekvence:
fi = fi1 + fi2 + + fil = (X = ai )
tvorijo frekvenno porazdelitev spremenljivke X, robne frekvence:
fj = f1j + f2j + + flj = (Y = bj )
pa tvorijo frekvenno porazdelitev spremenljivke Y . Seveda velja:
n = f1 + f2 + + fk = f1 + f2 + + fl .
Deniramo lahko tudi relativne navzkrine frekvence in relativne robne frekvence:
fij

fij
=
,
n

fi

fi X
=
=
fij ,
n
j=1

Primer : barva oi in barva las neke skupine ljudi


Absolutne frekvence:

fj

fj X
=
=
fij .
n
i=k

73

M. RAI: STATISTIKA
oi\lasje
modre
zelene
rjave
Skupaj

rdei blond rjavi, rni Skupaj


1
11
1
13
0
14
9
23
2
2
22
26
3
27
32
62

oi\lasje
modre
zelene
rjave
Skupaj

rdei
.
0 016
.
0 000
.
0 032
.
0 048

Relativne frekvence:
blond rjavi, rni Skupaj
.
.
.
0 177
0 016
0 210
.
.
.
0 226
0 145
0 371
.
.
.
0 032
0 355
0 419
.
.
.
0 435
0 516
1 000

Obstaja veliko tevilskih mer (pokazateljev) povezanosti. Eden najboljih je Cramrjev koecient asociiranosti, osnova za njegov izraun pa so teoretine relativne navzkrine
frekvence:
fij = fi fj ,
Teoretine relativne navzkrine frekvence bi se pri danih relativnih robnih frekvencah
pojavile, e bi bili spremenljivki neasociirani, t. j. neodvisni v smislu teorije verjetnosti,
e bi statistino mnoico obravnavali kot verjetnostni prostor, na katerem bi bile vse
enote enako verjetne. e bi bilo npr. v populaciji 20% oseb z modrimi omi in 50% oseb
z rjavimi ali rnimi lasmi ter barva oi in barva las ne bi bili povezani, bi bilo oseb, ki
imajo tako modre oi kot tudi rjave ali rne lase, 20% od 50%, kar znaa 10%. Z drugimi
.
.
.
besedami, dele bi bil 0 2 0 5 = 0 1.
V naem prejnjem primeru so teoretine relativne navzkrine frekvence enake:
oi\lasje
modre
zelene
rjave
Skupaj

rdei
.
0 010
.
0 018
.
0 020
.
0 048

blond rjavi, rni Skupaj


.
.
.
0 091
0 108
0 210
.
.
.
0 162
0 191
0 371
.
.
.
0 183
0 216
0 419
.
.
.
0 435
0 516
1 000

Cramrjev koecient asociiranosti je zasnovan na razkoraku med opaenimi in teoretinimi relativnimi frekvencami in je deniran s formulo:
v

u
k X
l

2
X
u

f
f
1
ij
ij
.
V := t
min{k, l} 1 i=1 j=1
fij

74

M. RAI: STATISTIKA

Pri naem primeru izraunamo:


.
.
.
.
.
.
(0 016 0 010)2 (0 177 0 091)2 (0 016 0 108)2
+
+
+
.
.
.
0 010
0 091
0 108
.
.
.
.
.
.
(0 000 0 018)2 (0 226 0 162)2 (0 145 0 191)2
+
+
+
+
.
.
.
0 018
0 162
0 191
.
.
.
.
.
.
(0 032 0 020)2 (0 032 0 183)2 (0 355 0 216)2 . .
+
+
+
= 0 43716 ,
.
.
.
0 020
0r183
0 216
.
0 43716 . .
.
V =
= 0 47 .
31
Lastnosti Cramrjevega koecienta asociiranosti:
Velja 0 V 1.
Koecient je minimalen (enak 0) natanko tedaj, ko sta spremenljivki neasociirani.
e ve, e so podatki dobljeni kot dovolj velik enostavni sluajni vzorec iz populacije,
na kateri sta spremenljivki X in Y neasociirani, je V blizu 0: veji kot je vzorec,
bolj natanno to velja. Malo kasneje se bomo nauili, kako testirati neasociiranost
na populaciji.
Koecient V je maksimalen (enak 1) natanko tedaj, ko spremenljivki natanno
doloata druga drugo (sta popolnoma asociirani ).
Kvalitativno opredeljevanje koecienta asociiranosti je precej subjektivne narave. Tu se
bomo drali naslednjih dogovorov:
.
do 0 2: neznatna asociiranost;
.
.
od 0 2 do 0 4: nizka asociiranost;
.
.
od 0 4 do 0 7: zmerna asociiranost;
.
.
od 0 7 do 0 9: visoka asociiranost;
.
od 0 9 do 1: zelo visoka asociiranost.
Pri primeru z barvo oi in las sta torej spremenljivki zmerno asociirani.
e sta obe spremenljivki dihotomni (lahko zavzameta le dve vrednosti) in je njuna
porazdelitev podana s kontingenno tabelo:

a1
a2

b1 b2
A B ,
C D

je izraava Cramrjevega koecienta asociiranosti preprosteja:


|AD BC|
V =p
.
(A + B)(C + D)(A + C)(B + D)

75

M. RAI: STATISTIKA
Ve informacije pa nam da predznaena vrednost:
AD BC
= p
.
(A + B)(C + D)(A + C)(B + D)

e je > 0, to pomeni, da se enote, na katerih prva spremenljivka zavzame prvo


vrednost, nagibajo k temu, da tudi druga spremenljivka zavzame prvo vrednost;
nasprotno se enote, na katerih prva spremenljivka zavzame drugo vrednost, nagibajo
k temu, da tudi druga spremenljivka zavzame drugo vrednost.
e je < 0, to pomeni, da se enote, na katerih prva spremenljivka zavzame prvo
vrednost, nagibajo k temu, da druga spremenljivka zavzame drugo vrednost; nasprotno se enote, na katerih prva spremenljivka zavzame drugo vrednost, nagibajo
k temu, da tudi druga spremenljivka zavzame prvo vrednost.
Primer : rezultati ankete z dvema vpraanjema:
1. Ali verjamete v horoskop?
2. Ali verjamete v NLP-je?
so zbrani v naslednji tabeli:
Horoskop\NLP
vsaj malo
ne
Skupaj

vsaj malo ne
5
7
6
9
11
16

Skupaj
12
15
27

5976
. .
= 0 017.
12 15 11 16
Gre torej za neznatno pozitivno povezanost.

Velja =

3.1.2

Testiranje neasociiranosti

Nielno hipotezo, da spremenljivki na celotni populaciji nista asociirani, testiramo s kontingennim testom. To je test hi kvadrat, in sicer z enostransko razliico v desno in
(k 1)(l 1) prostostnimi stopnjami, kjer je kot prej k tevilo monih vrednosti prve, l
pa tevilo monih vrednosti druge spremenljivke. Testna statistika hi kvadrat pa se izraa
s formulo:
2
k X
l
X
 2
fij fij
2
=
n
min{k,
l}

1
V .
=n
fij
i=1 j=1

Nielno hipotezo torej zavrnemo, e je 2 > 21 (k 1)(l 1) . e jo zavrnemo pri
.
.
= 0 05, pravimo, da sta spremenljivki znailno asociirani, e jo zavrnemo pri = 0 01,
pa pravimo, da sta zelo znailno asociirani.

76

M. RAI: STATISTIKA

Opomba. Tudi kontingenni test hi kvadrat je zgolj priblien. Dovolj natanen je pri
naslednjih predpostavkah:
Populacija je velika.
Gre za enostavni sluajni vzorec.
Teoretine absolutne frekvence so najmanj 5: fij = nfij 5 za vse i in j. Sicer
zdruimo blinje razrede.
Primer : recimo, da prejnja tabela barv las in oi pripada enostavnemu sluajnemu
.
vzorcu iz velike populacije. Pri stopnji znailnosti = 0 01 testiramo hipotezo, da sta
barva oi in barva las na populaciji neasociirani. Najprej poglejmo, ali so sploh izpolnjeni
pogoji za izvedbo testa. Teoretine absolutne frekvence so:
oi\lasje
modre
zelene
rjave

rdei blond rjavi, rni


.
.
.
0 63 5 66
6 71
.
.
.
1 11 10 02
11 87
.
.
.
1 25 11 32
13 42

kar pomeni, da pogoji za test niso izpolnjeni in moramo zdruiti doloene razrede. Glede
na to, da je rdeelascev opazno najmanj, jih bomo zdruili z blondinci. Dobimo:
Opaene absolutne frekvence:
oi\lasje
modre
zelene
rjave
Skupaj

rdei, rjavi,
Skupaj
blond rni
12
1
13
14
9
23
4
22
26
30
32
62

Teoretine absolutne frekvence:


oi\lasje
modre
zelene
rjave
Skupaj

rdei, rjavi,
blond rni
.
.
6 29 6 71
.
.
11 13 11 87
.
.
12 58 13 42
30
32

Skupaj
13
23
26
62

Opaene relativne frekvence:


oi\lasje
modre
zelene
rjave
Skupaj

rdei,
blond
.
0 194
.
0 226
.
0 065
.
0 484

rjavi,
rni
.
0 016
.
0 145
.
0 355
.
0 516

Skupaj
.
0 210
.
0 371
.
0 419
.
1 000

Teoretine relativne frekvence:


oi\lasje
modre
zelene
rjave
Skupaj

rdei,
blond
.
0 101
.
0 180
.
0 203
.
0 484

rjavi,
rni
.
0 108
.
0 191
.
0 216
.
0 516

Skupaj
.
0 210
.
0 371
.
0 419
.
1 000

77

M. RAI: STATISTIKA
Cramrjev koecient asociiranosti bo za zdruene razrede drugaen:
.
.
.
.
(0 194 0 101)2 (0 016 0 108)2
+
+
.
.
0 101
0 108
.
.
.
.
(0 226 0 180)2 (0 145 0 191)2
+
+
+
.
.
0 180
0 191
.
.
.
.
(0 065 0 203)2 (0 355 0 216)2 . .
+
= 0 36799 ,
+
.
.
0 203
0
216
r .
0 36799 . .
.
V =
= 0 61 .
21
Povezanost torej e vedno pride zmerna. Testna statistika pa pride:
.
.
.
.
2 = 62 0 36799 = 22 82 .

. .
Ker kritina vrednost pride 20.99 (2) = 9 21, nielno hipotezo, da barva oi in barva las
nista asociirani, zavrnemo: na naem vzorcu sta barvi statistino zelo znailno asociirani.

3.2

Povezanost dveh intervalskih spremenljivk:


koreliranost

Koreliranost pove, v kolikni meri sta spremenljivki povezani glede na naraanje in padanje: e se ena od spremenljivk povea, ali se druga v povpreju povea, zmanja ali
ni od tega. Zato je koreliranost predznaena koliina: mona je pozitivna ali negativna
koreliranost.
Pri preuevanju koreliranosti nam pride prav diagramom razprenosti (tudi razsevni
diagram, angl. scatter plot, scattergraph), kjer podatke predstavimo kot pike v ravnini, pri
emer koordinata x pove vrednost prve, koordinata y pa vrednost druge spremenljivke.
Primer : vremenska napoved temperatur za naslednjih nekaj dni
dan
petek
sobota
nedelja
ponedeljek
torek
Pripadajoi diagram razprenosti:

jutranja dnevna
14
19
12
20
10
21
11
22
12
21

78

M. RAI: STATISTIKA
dnevna
22
b

21
b

20
b

19
b

10

11

12

13

14

jutranja

Ve diagramov razprenosti pride kasneje, prej pa bomo spoznali, kako koreliranost


kvantitativno in kvalitativno opredelimo.

3.2.1

Kovarianca

Kovarianca je prvi korak do opredeljevanja povezanosti dveh intervalskih spremenljivk.


e vrednosti prve oznaimo z x1 , . . . , xn , vrednosti druge pa z y1 , . . . , yn , je kovarianca
enaka:
(x1 x)(y1 y) + (x2 x)(y2 y) + + (xn x)(yn y)
,
n
kjer sta x in y aritmetini sredini naih spremenljivk:
K = KX,Y :=

x =

x1 + x2 + + xn
,
n

y =

y1 + y2 + + yn
.
n

e je kovarianca pozitivna, pravimo, da sta spremenljivki pozitivno korelirani. e je


negativna, sta negativno korelirani. e je enaka ni, sta nekorelirani.
Kovarianca spremenljivke same s seboj je kvadrat standardnega odklona: KX,X = s2X .
Kovarianco lahko raunamo tudi po u-metodi: za poljubna u in v velja:
KX,Y =

(x1 u)(y1 v) + (x2 u)(y2 v) + + (xn u)(yn v)


(
x u)(
y v) .
n

Primer : Izraun kovariance jutranjih in dnevnih temperatur (vzamemo u = 10 in v = 20):


xi
14
12
10
11
12
Vsota
Povpreje

yi xi 10 yi 20 (xi 10)(yi 20)


19
4
1
4
20
2
0
2
21
0
1
0
22
1
2
0
21
2
1
2
9
3
2
.
.
18
06
0

79

M. RAI: STATISTIKA
.
.
.
.
Kovarianca: KX,Y = 0 1 8 0 6 = 1 08.
Kovarianco lahko raunamo tudi iz kontingenne tabele:
k

KX,Y

1 XX
=
fij (ai x)(bj y) =
n i=1 j=1
=

k X
l
X
i=1 j=1
k

fij (ai x)(bj y) =


l

1 XX
=
fij (ai u)(bj v) (
x u)(
y v) =
n i=1 j=1
=

k X
l
X
i=1 j=1

fij (ai u)(bj v) (


x u)(
y v) .

e en primer : med 20 tudenti izvedemo anketo z dvema vpraanjema:


1. Koliko ur na dan preivi na raunalniku?
2. Koliko ur na dan preivi zunaj s prijatelji?
Rezultati ankete so zbrani v naslednji kontingenni tabeli (vrstice so ure na raunalniku,
stolpci pa ure s prijatelji):
X \Y
1
2
3
4
5
fj

1
1
2
3
0
1
7

2
1
2
1
1
1
6

3
0
2
1
1
0
4

4
0
0
0
1
0
1

5
1
1
0
0
0
2

fi
3
7
5
3
2
20

Najprej izraunamo povpreja:


13+27+35+43+52
.
= 2 7,
20
17+26+34+41+52
.
y =
= 2 25 .
20
.
Anketiranci so, kot trdijo, torej v povpreju na dan preiveli 2 7 ure za raunalnikom in
.
2 25 ure s prijatelji.
x =

80

M. RAI: STATISTIKA
Izraun kovariance po u-metodi pri u = 3 (za x) in v = 2 (za y):

1
(2) (1) 1 + (2) 0 1 + (2) 1 0 + (2) 2 0 + (2) 3 1 +
Kx,y =
20
+ (1) (1) 2 + (1) 0 2 + (1) 1 2 + (1) 2 0 + (1) 3 1 +
+ 0 (1) 3 + 0 0 1 + 0 1 1 + 0 2 0 + 0 2 0 +
+ 1 (1) 0 + 1 0 1 + 1 1 1 + 1 2 1 + 1 2 0 +

+ 2 (1) 1 + 2 0 1 + 2 1 0 + 2 2 0 + 2 2 0
.
.
(2 7 3) (2 25 2) =
.
= 0 225 .

S pomojo kovariance na vzorcu lahko tokasto ocenimo kovarianco na celotni populaciji. Vendar pa moramo podobno kot pri standardnem odklonu za nepristransko oceno
deliti z n 1 namesto z n. e je torej X,Y populacijska kovarianca, je njena cenilka:

[X, Y ] = KX,Y + :=

(x1 x)(y1 y) + (x2 x)(y2 y) + + (xn x)(yn y)


.
n1

.
Primer : kovarianca na vzorcu 20 tudentov je prila 0 225. Ocena za kovarianco na
celotni populaciji pa je:
20 .
. .

[X, Y ] = 0 225 = 0 237 .


19
e preuujemo ve spremenljivk hkrati (multivariatna analiza), je pomembna kovarianna matrika:

K11 K12 . . . K1r


K21 K22 . . . K2r

K = ..
..
..
...
.
.
.
Kr1 Kr2 . . . Krr

S Kij smo tu oznaili kovarianco i-te in j-te spremenljivke. Tako na primer v psihometriji
(in tudi drugje) pomembno vlogo igra Cronbachov , ki je razmerje med vsoto kovarianc
parov razlinih spremenljivk in vsoto vseh kovarianc (t. j. vkljuno z variancami), vse
skupaj pomnoeno z r/(r 1):
!
P
P
Kii
r
r
i,j;i6=j Kij
i
P
=
1 P
.
=
r1
r

1
K
ij
i,j
i,j Kij
e so komponente nekorelirane, je = 0.

Veina metod v multivariatni analizi zahteva matematino analizo matrik, ki temelji


na linearni algebri.

81

M. RAI: STATISTIKA

3.2.2

Pearsonov korelacijski koecient

Kovarianca sama po sebi ni dobro merilo za stopnjo povezanosti, saj je odvisna od merskih
enot: e npr. eno od spremenljivk pomnoimo s 100 (recimo e jo podamo v centimetrih
namesto v metrih), se tudi kovarianca pomnoi s 100. Pearsonov korelacijski koecient
to pomanjkljivost odpravi tako, da kovarianco deli s produktom standardnih odklonov:
r = r X,Y =

KX,Y
,
sX sY

kjer je:
r

(x1 x)2 + (x2 x)2 + + (xn x)2


,
n
r
(y1 y)2 + (y2 y)2 + + (yn y)2
sY =
.
n

sX =

Lastnosti Pearsonovega korelacijskega koecienta:


Deniran je, e nobena od spremenljivk ni konstantna.
Velja 1 r 1.
e sta X in Y neodvisni (na statistini mnoici, iz katere so podatki), je r = 0.
Velja tudi, da, e podatki temeljijo na velikem enostavnem sluajnem vzorcu iz
velike populacije, na kateri sta X in Y neodvisni, je r blizu 0 (malo kasneje pri
testiranju se bomo nauili, kako postaviti mejo).
Pearsonov korelacijski koecient je maksimalen (enak 1), e je katera koli od spremenljivk naraajoa linearna funkcija druge.
Pearsonov korelacijski koecient je minimalen (enak 1), e je katera koli od spremenljivk padajoa linearna funkcija druge.
Pearsonov korelacijski koecient meri stopnjo linearne povezanosti med statistinima spremenljivkama.
Absolutna vrednost Pearsonovega korelacijskega koecienta (| r |) je v grobem primerljiva s Cramrjevim koecientom asociiranosti. e ve, za par dihotomnih spremenljivk
se to dvoje celo ujema, ne glede na to, kateri dve (razlini) tevili priredimo vrednostma
posamezne spremenljivke (ki nista nujno tevilski lahko sta le imenski). e gledamo
par urejenostnih dihotomnih spremenljivk in e tevilske vrednosti priredimo v skladu z
urejenostjo, velja r = .
Zato je smiselno, e tudi Pearsonov korelacijski koecient enako kvalitativno opredeljujemo kot pri Cramrjev koecient, s tem da lahko sedaj povemo tudi smer povezanosti:
.
vrednost r = 0 6 torej pomeni zmerno negativno koreliranost.

Kvadratu korelacijskega koecienta (r2 ) pravimo determinacijski koecient. Njegovo


kvalitativno opredeljevanje je torej naslednje:

82

M. RAI: STATISTIKA

.
do 0 04: neznatna povezanost;
.
.
od 0 04 do 0 16: nizka povezanost;
.
.
od 0 16 do 0 49: zmerna povezanost;
.
.
od 0 49 do 0 81: visoka povezanost;
.
od 0 81 do 1: zelo visoka povezanost.

Primer : pri vremenski napovedi temperatur:


dan
petek
sobota
nedelja
ponedeljek
torek
pride:

jutranja dnevna
14
19
12
20
10
21
11
22
12
21

.
1 08
. .
.
.
.
sY = 1 020 ;
r X,Y = .
= 0 80 .
.
1 327 1 020
.
Determinacijski koecient: 0 64.
Jutranja in dnevna temperatura sta torej visoko negativno povezani: pri viji jutranji
temperaturi lahko priakujemo nijo dnevno.
. .
sX = 1 327 ,

Pri takni napovedi, kot je ta (za nekaj zaporednih dni) ima pri korelaciji verjetno
nejvejo teo vpliv oblanosti, ki via jutranjo, a nia dnevno temperaturo. Pri napovedi
za dalje obdobje bi bila korelacija bistveno drugana.
Primer : pri kontingenni tabeli, ki se nanaa na vpraanji, koliko ur anketirani tudent
preivi na raunalniku in koliko s prijatelji:
X \Y
1
2
3
4
5
fj
pride:

. .
sX = 1 1874 ,

1
1
2
3
0
1
7

2
1
2
1
1
1
6

. .
sY = 1 2600 ,

Gre torej za neznatno negativno povezanost.

3
0
2
1
1
0
4

4
0
0
0
1
0
1

5
1
1
0
0
0
2

fi
3
7
5
3
2
20

.
0 225
.
.
.
= 0 15 .
r X,Y = .
.
1 1874 1 2600

e nekaj primerov diagramov razprenosti z razlinimi korelacijskimi koecienti :


To so rezultati tistih 52 tudentov, ki so v tudijskem letu 2010/11 na biopsihologiji
pisali oba kolokvija iz statistike:

83

M. RAI: STATISTIKA
y
.
r = 0 58

x
To so nakljuno generirani podatki, a nakljunost je nastavljena tako, da so nekorelirani.
y

r =0

x
Ti podatki so visoko pozitivno korelirani.
y

.
r =09

84

M. RAI: STATISTIKA
Skrajni primer je korelacija 1, ko gre za linearno odvisnost.
y

r =1

x
Tu korelacija ni enaka 1, eprav sta spremenljivki v deterministini strogo naraajoi
povezavi:
y
.
r = 0 96

x
Korelacija je lahko tudi negativna:

85

M. RAI: STATISTIKA
y
.
r = 0 5

x
Tukaj je korelacija enaka 1:
y
r = 1

x
e en primer nekoreliranih podatkov:
y

r =0

x
Tukaj se y deterministino izraa z x, podatki pa so nekorelirani.

86

M. RAI: STATISTIKA
y

r =0

3.2.3

Testiranje nekoreliranosti

Nekoreliranost testiramo s T -testom z n 2 prostostnimi stopnjami na testni statistiki:

r
T =
n 2,
1 r2
kjer je r = r X,Y Pearsonov korelacijski koecient. Aktualne so vse tri razliice testa:
dvostranska razliica, e H1 trdi, da sta X in Y korelirani;
enostranska razliica v desno, e H1 trdi, da sta X in Y pozitivno korelirani;
enostranska razliica v levo, e H1 trdi, da sta X in Y negativno korelirani.
Test je zasnovan ob predpostavki, da sta X in Y na populaciji porazdeljeni normalno.
.
Primer : pri temperaturah za 5 dni je korelacijski koecient priel 0 80, torej je bila
koreliranost visoka. Recimo, da bi lo za enostavni sluajni vzorec in da bi testirali
nielno hipotezo, da sta jutranja in dnevna temperatura nekorelirani, proti alternativni
hipotezi, da sta korelirani. Testna statistika pride:
.
.
0 80
.
3 = 2 31 .
T =
.
1 0 802
. .
.
Pri stopnji znailnosti = 0 05 to primerjamo s t0.975 (3) = 3 18 in hipoteze ne zavrnemo:
koreliranost ni statistino znailna.
Primer : pri 52 tudentih, ki so v tudijskem letu 2010/11 na biopsihologiji pisali oba
.
kolokvija iz statistike, korelacijski koecient med obema kolokvijema pride 0 58, torej
je koreliranost zmerna. Pa recimo, da bi bil to spet enostavni sluajni vzorec in da bi
testirali nielno hipotezo, prvi in drugi kolokvij nekorelirani, proti alternativni hipotezi,
da sta korelirana. Testna statistika pride:
.

0 58
. .
T =
. 2 50 = 5 03 .
1 0 58

87

M. RAI: STATISTIKA

. .
Ker je t0.995 (50) = 2 68, je koreliranost statistino zelo znailna, eprav je le zmerna,
medtem ko je bila prej koreliranost visoka, a statistino neznailna. Toda zdaj smo imeli
na voljo precej ve podatkov.

3.3

Povezanost intervalske in dihotomne


spremenljivke: primerjava sredin

Podatke, kjer sta na isti statistini mnoici denirani intervalska spremenljivka (recimo
U ) in dihotomna spremenljivka (recimo G), lahko predstavimo bodisi kot:
u1 , u 2 , . . . , u N
g1 , g2 , . . . , gN
bodisi podatke razdelimo glede na vrednost dihotomne spremenljivke. e le-ta zavzame
vrednosti a in b, lahko podatke, na katerih druga spremenljivka zavzame vrednost a,
predstavimo z:
x1 , x2 , . . . , xm ,
podatke, na katerih druga spremenljivka zavzame vrednost b, pa z:
y1 , y2 , . . . , yn .
e drugae, gledati dve spremenljivki, od katerih je druga dihotomna, na eni statistini
mnoici, je ekvivalentno gledanju prve spremenljivke na dveh razlinih statistinih mnoicah (dihotomna spremenljivka nam statistino mnoico razdeli na dve skupini).
Primer : pri nekem izpitu gledamo rezultat in spol:
Ime
Rezultat (ui ) Spol (gi )
Jan
22
M
Karmen
39

Barbara
73

Kristina
34

Domen
52
M
Katja
34

Alja
39
M
Rok
52
M
Sabina
38

Diana
53

Jerica
59

Tilen
43
M
Rezultate lahko loimo po spolih:
enske: x1 = 39 , x2 = 73 , x3 = 34 , x4 = 34 , x5 = 38 , x6 = 53 , x7 = 59 .
Moki: y1 = 22 , y2 = 52 , y3 = 39 , y4 = 52 , y5 = 43 .

88

M. RAI: STATISTIKA
Prikaz s pikami:
b

enske:
b

Moki:

3.3.1

b b

b
b

Tokovni biserialni korelacijski koecient

e sta a in b numerini vrednosti, lahko izraunamo Pearsonov korelacijski koecient. Br


ko je a > b, je le-ta enak:

x y mn
r pb =
,
s m+n
ne glede na to, koliko sta vrednosti a in b dejansko enaki. Zato ni nujno, da je dihotomna
spremenljivka numerina, lahko je le imenska. Koecient za ta primer imenujemo tokovni
biserialni korelacijski koecient (angl. point biserial correlation coecient).
Oznaka s se tu nanaa na skupni standardni odklon, t. j. standardni odklon spremenljivke U :
r
(u1 u)2 + (u2 u)2 + + (uN u)2
s=
=
N
r
(x1 u)2 + + (xm u)2 + (y1 u)2 + + (yn u)2
,
=
N
u pa je aritmetina sredina vseh podatkov:
u =

u1 + u 2 + + uN
,
N

Pri naem primeru je:


.
.
.
.
.
.
.
.
.
x = 47 14 , y = 41 6 , u = 44 83 , s2 = 169 8 , s = 13 03 ,
torej je:
r pb

.
.
. 47 14 41 6 7 5 . .
= 0 2097 .
=
.
13 03
7+5

Kvalitativno opredeljevanje tokovnega biserialnega koecienta je enako kot pri Pearsonovem: gre torej za nizko povezanost v korist ensk. Ali drugae, enske so pisale malo
bolje kot moki.
Aritmetina sredina vseh podatkov je enaka tehtani sredini aritmetinih sredin posameznih skupin:
m
n
u =
x +
y .
m+n
m+n
z uteema, ki sta sorazmerni z velikostma skupin, ki ju predstavljata.

89

M. RAI: STATISTIKA

Kvadrat skupnega standardnega odklona, torej skupno varianco, pa lahko zapiemo


kot vsoto:
s2 = s2W + s2B ,
kjer je:

m
n
s2X +
s2Y
m+n
m+n
varianca znotraj skupin (angl. within groups) ali tudi nepojasnjena varianca (angl. unexplained variance, pooled variance) in:
s2W =

s2B =

mn
(
x y)2
2
(m + n)

varianca med skupinama (angl. between groups ali tudi pojasnjena varianca (angl. explained variance). To je tisti del variance, ki jo pojasnjuje skupina, v kateri je podatek.
Na zgornji in splonejih razlenitvah variance temelji analiza variance (angl. analysis
of variance, ANOVA), ki je pomemben del inferenne statistike. Malo kasneje bomo
omenili posploitev na ve skupin.
Kvadrat tokovnega biserialnega korelacijskega koecienta (tokovni biserialni determinacijski koecient) predstavlja dele pojasnjene variance ali tudi mo uinka (angl.
strength of eect, eect size), saj velja:
r 2pb =

s2B
s2B
=
.
s2
s2W + s2B

Njegovo kvalitativno opredeljevanje je torej enako kot pri determinacijskem koecientu.


Pri naem primeru je recimo:
5
.
. 7
.
.
.
47 14 +
41 6 .
u = 44 83 =
12
12
Varianca med skupinama (varianca, pojasnjena s spolom), je enaka:
s2B =
Nadalje je:

75
. .
.
.
(47 14 41 6)2 = 7 5 .
2
(7 + 5)

.
.
.
.
s2X = 191 3 , sX = 13 83 ,

.
.
.
.
s2Y = 121 8 , sY = 11 04 .

in varianca znotraj skupin (nepojasnjena varianca) je enaka:


5
. 7
.
. .
.
s2W =
191 3 +
121 8 = 162 3 .
12
12
.
.
.
. .
Opazimo, da je res s2 = 169 8 = 7 5 + 121 8 = s2B + s2W . Dele pojasnjene variance je
enak:
.
75 . .
. .
2
. = 0 04398 = 0 2097 .
169 8
e sta obe spremenljivki dihotomni, velja r pb = .

90

M. RAI: STATISTIKA

3.3.2

Standardizirana razlika povpreij

Kot mero za povezanost intervalske in dihotomne spremenljivke lahko gledamo tudi standardizirano razliko povpreij (angl. standardized mean dierence) ali tudi Cohenov koecient:
x y
d=
sW
Tokovni biserialni in Cohenov koecient nam dajeta isto informacijo, saj se izraata drug
z drugim:
m+n
d
r
q pb
,
d=
r pb = q
.
2
mn
2
1

r
d2 + (m+n)
pb
mn
Nudita pa dva razlina pogleda: tokovni biserialni korelacijski koecient je osredotoen
bolj na povezanost, Cohenov koecient pa bolj na razliko.
V naem primeru je:

3.3.3

.
.
. 47 14 41 6 . .
d= .
= 0 435 .
162 3

Testiranje enakosti povpreij

Tako kot nam dihotomna spremenljivka razdeli vzorec na dva podvzorca, nam tudi populacijo razdeli na dve podpopulaciji. Oznaimo z X sredino spremenljivke na prvi, z
Y pa na drugi podpopulaciji. Testiramo nielno hipotezo, da je X = Y . To storimo s
T -testom z N 2 prostostnimi stopnjami na testni statistiki:
x y
,
T =
SE
kjer je:
r
N
SE = sW+
,
mn
r
(x1 x)2 + + (xm x)2 + (y1 y)2 + + (yn y)2
sW+ =
N 2
. .
Primer : spol in rezultat kolokvija. Pri stopnji znailnosti = 0 05 dvostransko testiramo,
ali sta spol in rezultat nedvisna. Spomnimo se:
.
.
.
.
.
.
m = 7 , n = 5 , x = 47 14 , y = 41 60 , s2W = 162 3 .
Od tod dobimo:
sW+

.
=

Testna statistika pride:

12
. .
.
162 3 = 13 96 ,
10

.
SE =

12
. .
.
13 96 = 8 173 .
35

.
.
47 14 41 60 . .
= 0 678 .
.
8 173
. .
Glede na test moramo to primerjati s t0.975 (10) = 2 23, torej hipoteze ne zavrnemo: razlike
med spoloma niso statistino znailne.

91

M. RAI: STATISTIKA

3.4
3.4.1

Povezanost intervalske in imenske spremenljivke:


analiza variance z enojno klasikacijo
Pojasnjena in nepojasnjena varianca

Podatke, kjer sta na isti statistini mnoici denirani intervalska spremenljivka (recimo
X) in imenska spremenljivka (recimo G), lahko spet predstavimo na dva naina. Tako,
kot je prej opisano, bomo vrednosti intervalske in imenske spremenljivke tokrat oznaevali
z:
x1 , x2 , . . . , xn
g1 , g2 , . . . , gn
Lahko pa spet podatke razdelimo glede na vrednost imenske spremenljivke preindeksiramo jih na naslednji nain:
x11 , x12 , . . . , x1n1 : vrednosti spremenljivke X, kjer je G = g1
x21 , x22 , . . . , x2n2 : vrednosti spremenljivke X, kjer je G = g2
..
.
xk1 , xk2 , . . . , xkn2 : vrednosti spremenljivke X, kjer je G = gk
Seveda velja n1 + n2 + + nk = n.

e drugae, na eni statistini mnoici gledati dve spremenljivki, od katerih je druga


imenska, ki zavzame k vrednosti, je ekvivalentno gledanju prve spremenljivke na k razlinih statistinih mnoicah (imenska spremenljivka nam statistino mnoico razdeli na k
skupin).
Merjenje povezanosti med intervalsko in imensko spremenljivko temelji na analizi variance (natanneje, v naem kontekstu je to analiza variance z enojno klasikacijo). Oznaimo z x aritmetino sredino na celotni statistini mnoici:
x =

x1 + x2 + + xn
,
n

z x1 , x2 , . . . , xk pa aritmetine sredine na posameznih skupinah:


xi =

xi1 + xi2 + + xini


,
ni

Tedaj je x tehtana sredina aritmetinih sredin i :


x =
Skupna varianca:
s2 =

n1
n2
nk
x1 +
x2 + +
xk .
n
n
n

(x1 x)2 + (x2 x)2 + + (xn x)2


n

92

M. RAI: STATISTIKA

spet razpade na nepojasnjeno in pojasnjeno varianco:


s2 = s2W + s2B ,
kjer je nepojasnjena varianca ali varianca znotraj skupin tehtana sredina posameznih
varianc v skupinah:
(xi1 xi )2 + (xi2 xi )2 + + (xini xi )2
,
ni
nk 2
n1 2 n2 2
s1 +
s2 + +
s ,
=
n
n
n k

s2i =
s2W

pojasnjena varianca ali varianca med skupinami pa je tehtana sredina kvadratov odklonov
aritmetinih sredin posameznih skupin od celostne aritmetine sredine:
s2B =

n1
n2
nk
(
x1 x)2 +
(
x2 x)2 + +
(
xk x)2 .
n
n
n

Lahko jo izraunamo tudi po u-metodi:


s2B =

n1
n2
nk
(
x1 u)2 +
(
x2 u)2 + +
(
xk u)2 (
x u)2 .
n
n
n

Zgoraj denirane variance so posploitve varianc, ki smo jih gledali pri povezanosti intervalske in dihotomne spremenljivke. Tako povezanost intervalske in imenske spremenljivke
spet merimo z deleem pojasnjene variance oz. mojo uinka:
2 =

s2B
,
s2

Dele pojasnjene variance kvalitativno opredeljujemo enako kot determinacijski koecient:


.
e je pojasnjenih 25% variance ( 2 = 0 25), to pomeni zmerno povezanost.
e je intervalska spremenljivka dihotomna, se dele pojasnjene variance ujema s kvadratom Cramrjevega koecienta asociiranosti: 2 = V 2 . e sta torej obe spremenljivki
dihotomni, velja 2 = 2 .
Primer : elimo izmeriti povezavo med pogostnostjo zahajanja v kino in najbolj priljubljeno zvrstjo lma. Za ta namen izvedemo anketo z dvema vpraanjema:
1. Kolikokrat na mesec gre v kino?
2. Katera zvrst lma ti je najbolj ve?
(a) Komedija.
(b) Akcija.
(c) Romantini lm.
(d) Drama.
(e) Grozljivka.

93

M. RAI: STATISTIKA

Pogostnost zahajanja v kino je intervalska, zvrst lma pa imenska spremenljivka. Rezultati ankete so naslednji:
zvrst lma\t. obiskov kina
komedija
akcija
romantini
drama
grozljivka
Skupaj

0
4
0
0
4
0
8

1
2
1
3
1
0
7

2
2
0
1
2
0
5

Skupaj Povpreje
.
8
0 75
1
1
.
4
1 25
.
7
0 7143
0

.
20
0 85

Skupna varianca:
s2 =

.
.
.
8 (0 0 85)2 + 7 (1 0 85)2 + 5 (2 0 85)2
.
= 0 6275 .
20

Varianca med skupinami (pojasnjena varianca):


.
.
.
.
.
.
.
8 (0 75 0 85)2 + 1 (1 0 85)2 + 4 (1 25 0 85)2 + 7 (0 7143 0 85)2 .
=
s2B =
20
. .
= 0 0436 .
Dele pojasnjene variance:

.
. 0 0436 . .
2 = .
= 0 069 .
0 6275
.
Razlinost najljubih zvrsti lma torej pojasni 6 9% variance tevila obiskov kina. To
pomeni nizko povezanost.
Primer : primerjava rezultatov kolokvijev v tudijskem letu 2010/11 med tudenti biopsihologije pri predmetu Statistika, univerzitetnimi tudenti matematike pri predmetu
Verjetnost in statistika in tudenti praktine matematike pri predmetu Matematika 2.
teti so le tudenti, ki so pisali polno tevilo zahtevanih kolokvijev.
Biopsihologi (52):
b

b b

bbb

bb

bb b b b b b

bb b

b bb

b b

bb b

bb

bbb b

bb

Univerzitetni matematiki (48):


b b

b bb b bb

b b

b b b b b

b b bbb b b bb b

b bb b

b b b

Praktini matematiki (22):


b

b b

b b b b b bb

b b b bb

b b

b b

bb

94

M. RAI: STATISTIKA

Za dele pojasnjene variance poleg tevila tudentov v posamezni skupini potrebujemo


e aritmetino sredino in standardni odklon. Za posamezne skupine je to enako:

Biopsihologi:
Univerzitetni matematiki:
Praktini matematiki:

x1
x2
x3

.
.
= 64 885 ,
.
.
= 63 056 ,
.
.
= 54 318 ,

s1
s2
s3

.
.
= 19 603 .
.
.
= 14 891 .
.
.
= 11 279 .

Lotimo se raunanja. Najprej setejmo, koliko je skupaj tudentov:


n = 52 + 48 + 22 = 122 .
Nato izraunamo celostno povpreje:
48
22
.
. 52
.
.
.
.
64 885 +
63 056 +
54 318 = 62 260 .
x =
122
122
122
Podobno dobimo varianco znotraj skupin:
48
22
.
. 52
.
.
.
.
19 6032 +
14 8912 +
11 2792 = 273 99 .
s2W =
122
122
122
Varianca med skupinami pa je enaka:
48
22
. 52
.
.
.
.
.
.
.
.
s2B =
(64 885 62 260)2 +
(63 056 62 260)2 +
(54 318 62 260)2 = 14 56 .
122
122
122
Torej je skupna varianca enaka:
.
.
. .
.
s2 = 274 0 + 14 6 = 288 55 ,
dele pojasnjene variance pa je:
.
. 14 56 . .
=
. = 0 0505 .
288 55
2

Z drugimi besedami, tudijski program pojasni dobrih 5% variance, ostalih slabih 95%
variance pa nastane zaradi drugih vplivov. Kvalitativno gre za nizko povezanost.

3.4.2

Testiranje povezanosti

Recimo zdaj, da so nai podatki dobljeni iz enostavnega sluajnega vzorca. Testiramo


nielno hipotezo, da med intervalsko in imensko spremenljivko (skupino) ni povezave,
proti alternativni hipotezi, da povezava je. To izvedemo z F -testom na testni statistiki:
n k 2
n k s2B
=
F =
k 1 s2W
k 1 1 2
s (k 1, n k) prostostnimi stopnjami, in sicer uporabimo enostransko razliico v desno.
To pomeni, da nielno hipotezo zavrnemo, e je F > F1 (k 1, n k) kjer je Fp (r, s)
kvantil FisherSnedecorjeve porazdelitve z (r, s) prostostnimi stopnjami.

95

M. RAI: STATISTIKA

Primer : primerjava rezultatov kolokvijev med prej omenjenimi tremi skupinami tudentov:
. .
F = 3 162 .
. .
.
e testiramo pri stopnji znailnosti = 0 05, to primerjamo z F0.95 (2, 119) = 3 072 in
dobimo, da je povezava med rezultatom in predmetom, ki ga je tudent delal, statistino
znailna. Pri tem se pretvarjamo, da gre za enostavni sluajni vzorec.

3.5

Povezanost dveh urejenostnih spremenljivk:


Spearmanova koreliranost

Povezanost dveh urejenostnih spremenljivk merimo s Spearmanovim ali Kendallovim korelacijskim koecientom. Raunanje slednjega je nekoliko bolj zapleteno, zato se bomo
posvetili le prvemu.
Sploni pristop pri urejenostnih spremenljivkah je, da uporabimo metode za intervalske
spremenljivke na rangih. Spearmanov korelacijski koecient je deniran natanko v tem
(X)
(X)
(X)
duhu: to je Pearsonov koecient, izraunan za vezane range. e z R1 , R2 , . . . , Rn
(Y )
(Y )
(Y )
oznaimo vezane range spremenljivke X, z R1 , R2 , . . . , Rn pa vezane range spremenljivke Y po enotah, se kovarianca rangov izraa s formulo:
KR(X) ,R(Y ) =
(X)

R1







R1(Y ) R
+ R2(X) R
R2(Y ) R
+ + Rn(X) R
Rn(Y ) R

R
,
n

kjer je:

= n+1
R
2
povpreni rang (ker je le-ta celo tevilo ali pa celo tevilo in pol, u-metoda tu ni toliko
smiselna). Nato izraunamo e standardna odklona rangov:
s



(X)
2 + R2(X) R
2 + + Rn(X) R
2
R1 R
,
sR(X) =
n
s



(Y )
2 + R2(Y ) R
2 + + Rn(Y ) R
2
R1 R
sR(Y ) =
,
n
e ni vezi, velja kar:

n2 1
,
12
sicer pa sta standardna odklona manja. Spearmanov korelacijski koecient deniramo
po formuli:
KR(X) ,R(Y )
.
= X,Y :=
sR(X) sR(Y )
sR(X) = sR(Y ) =

96

M. RAI: STATISTIKA

Primer : elimo izmeriti povezavo med zadovoljstvom s telesno teo in subjektivnim vplivom medijev na samopodobo. Za ta namen izvedemo anketo z dvema vpraanjema, pri
katerih imamo naslednje izbire:
1. Ali ste zadovoljni s svojo teo?
(a) Da.
(b) Srednje.
(c) Ne.
2. V kolikni meri mediji vplivajo na vao samopodobo?
(a) Sploh ne vplivajo.
(b) Srednje vplivajo.
(c) Mono vplivajo.
Obe spremenljivki (zadovoljstvo s telesno teo in vpliv medijev) sta tako urejenostni.
Dogovorimo se za naslednjo smer urejenosti: pri zadovoljstvu s telesno teo postavimo:
da < srednje < ne ,
(torej v resnici gledamo nezadovoljstvo), vpliv medijev pa uredimo takole:
ni < srednje < mono .
Denimo, da povpraamo tiri tudente in dobimo naslednje odgovore:
zadovoljen/a s teo
mediji vplivajo

srednje
srednje

srednje
ni

ne
da
mono ni

.
Pri zadovoljstvu s teo ima odgovor da rang 1, odgovor srednje rang 2 5, odgovor
.
ne pa rang 4. Pri vplivu medijev pa ima odgovor ni rang 1 5, odgovor srednje rang
3, odgovor mono pa rang 4. Torej bo:
(X)

R1

(Y )

R1

.
= 2 5,

R2

= 3,

R2

Povpreni rang je enak

(X)

(X)

4+1
2

.
= 2 5,
.
= 1 5,

(X)

= 4,

R4

(X)

= 4,

R4

R3
R3

(X)

(X)

= 1,
.
= 1 5.

.
= 2 5. Kovarianca rangov:

1h .
.
.
.
.
.
.
(2 5 2 5)(3 2 5) + (2 5 2 5)(1 5 2 5) +
4
i
.
.
.
.
.
+ (4 2 5)(4 2 5) + (1 2 5)(1 5 2 5) =
.
= 0 9375 .

KR(X) ,R(Y ) =

M. RAI: STATISTIKA

97

Standardna odklona rangov:


r .
.
.
.
.
.
(2 5 2 5)2 + (2 5 2 5)2 + (4 2 5)2 + (1 2 5)2 . .
= 1 0607 ,
sR(X) =
4
r
.
.
.
.
.
.
(3 2 5)2 + (1 5 2 5)2 + (4 2 5)2 + (1 5 2 5)2 . .
.
sR(Y ) =
= 1 0607
4
p
. .
sta le malo manja od maksimalne vrednosti (42 1)/12 = 1 118. Spearmanov korelacijski koecient pride:
.
0 9375
.
. .
= .
= 0 833 .
.
1 0607 1 0607
in je pozitiven, kar pomeni, da ljudje, ki mislijo, da imajo mediji veji vpliv na njihovo
samopodobo, nagibajo k vejemu nezadovoljstvu s telesno teo in obratno. To je tudi
neposredno razvidno iz podatkov.
Spearmanov korelacijski koecient je primerljiv s Pearsonovim in ga tudi enako kvalitativno opredeljujemo. Pri primeru s tirimi tudenti je bila torej povezanost visoka.
e sta obe spremenljivki dihotomni, se Spearmanov in Pearsonov koecient ujemata.
Nasploh ima Spearmanov korelacijski koecient podobne lastnosti kot Pearsonov:
Deniran je, e nobena od spremenljivk ni konstantna.
Velja 1 1.
e sta X in Y neodvisni (na statistini mnoici, iz katere so podatki), je = 0.
Velja tudi, da, e podatki temeljijo na velikem enostavnem sluajnem vzorcu iz
velike populacije, na kateri sta X in Y neodvisni, je blizu 0 (malo kasneje pri
testiranju se bomo nauili, kako postaviti mejo).
Spearmanov korelacijski koecient je maksimalen (enak 1), e je katera koli od
spremenljivk strogo naraajoa (a ne nujno linearna) funkcija druge.
Spearmanov korelacijski koecient je minimalen (enak 1), e je katera koli od
spremenljivk strogo padajoa (a ne nujno linearna) funkcija druge.
Spearmanov korelacijski koecient torej meri stopnjo monotone povezanosti. Podobne
lastnosti ima tudi Kendallov korelacijski koecient ( ).
Primer : pri naslednjih podatkih:

98

M. RAI: STATISTIKA
b

b
b
b
b

b
b b
b b
b b
b b b
b
b
b b b
b b b b b b b
b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b
b b b b b b b
b b b b
b b b
b b
bb b
b
b b

b
b
b
b

veja vrednost koordinate x pomeni tudi vejo vrednost koordinate y, zato je = 1.


. .
Povezava med x in y je deterministina, ni pa linearna, zato r 6= 1: pride r = 0 792.
Koreliranost po Pearsonu je torej zgolj visoka, niti ne zelo visoka.
Spearmanov korelacijski koecient je preprosto izraunati tudi za podatke iz kontingenne tabele. e z R(x) (a) oznaimo vezani rang vrednosti a glede na spremenljivko X,
z R(y) (b) oznaimo vezani rang vrednosti b glede na spremenljivko Y , velja:
k
l


1 XX
R(y) (bj ) R
,
fij R(x) (ai ) R
n i=1 j=1
v
u k
u1 X

2,
fi R(x) (ai ) R
=t
n i=1
v
u
l
u1 X

t
2.
=
fj R(y) (bj ) R
n j=1

KR(x) ,R(y) =

sR(x)

sR(y)

Primer : vrnimo se k povezavi med zadovoljstvom s telesno teo in subjektivnim vplivom


medijev na samopodobo. Zdaj povpraamo 20 tudentov in rezultate zberemo v naslednji
kontingenni tabeli:
Zad. s teo\Vpliv medijev
da
srednje
ne
Skupaj

ga ni
8
2
2
12

srednji
1
1
4
6

moan
0
0
2
2

Skupaj
9
3
8
20

99

M. RAI: STATISTIKA
= 10.5.
Povpreni rang: R
Rangi posameznih odgovorov in njihovi odmiki od povprenega:
ai
da
srednje
ne

R(x) (ai )
5
11
.
16 5

R(x) (ai ) R
.
-5 5
.
05
6

bj
R(y) (bj )
.
ga ni
65
.
srednji
15 5
.
moan
19 5

R(y) (bj ) R
-4
5
9

Standardna odklona rangov:


r


1
.
.
.
9 (5 5)2 + 3 0 52 + 8 62 = 5 296 ,
20
r 

1
.
12 (4)2 + 6 52 + 2 92 = 5 020 .
=
20

sR(x) =
sR(y)

Kovarianca rangov:
KR(x) ,R(y)


1
.
.
.
=
8 (5 5) (4) + 1 (5 5) 5 + 0 (5 5) 9 +
20
.
.
.
+ 2 0 5 (4) + 1 0 5 5 + 0 0 5 9 +

+ 2 6 (4) + 4 6 5 + 2 6 9 =

.
= 16 35 .

Spearmanov korelacijski koecient:

.
16 35
. .
.
= 0 615 .
= .
.
5 296 5 020
Tokrat torej dobimo zmerno povezanost, a v isto smer kot prej pri tirih tudentih.
Spearmanovo koreliranost testiramo tako kot Pearsonovo, s T -testom na testni statistiki:

T =p
n 2,
1 2
in spet so mone vse tri razliice testa: dvostranska ter enostranska v levo in v desno.
Testiranje Spearmanove koreliranosti je dobra alternativa testiranju Pearsonove koreliranosti, e sumimo, da porazdelitev katere od spremenljivk ni normalna, saj je test
Spearmanove koreliranosti zasnovan na predpostavki normalnosti.
Kot zgled testirajmo pri primeru z 20 tudenti hipotezo, da nezadovoljstvo s telesno
teo in vpliv medijev na samopodobo nista povezana, proti alternativni hipotezi, da se
ljudje, ki mislijo, da imajo mediji veji vpliv na njihovo samopodobo, nagibajo k vejemu
.
nezadovoljstvu s telesno teo in obratno. Postavimo = 0 01. Testna statistika pride
. .
. .
T = 3 31, kar primerjamo s t0.99 (18) = 2 55. Odstopanja so torej statistino zelo znailna.
Z drugimi besedami, ljudje, ki mislijo, da imajo mediji veji vpliv na njihovo samopodobo,
se statistino zelo znailno nagibajo k vejemu nezadovoljstvu s telesno teo (in obratno).

100

3.6

M. RAI: STATISTIKA

Povezanost urejenostne in dihotomne spremenljivke

Povezanost urejenostne in dihotomne spremenljivke se da meriti s Spearmanovim korelacijskim koecientom (izbrani vrstni red vrednosti dihotomne spremenljivke vpliva le na
predznak). Vendar pa je navadno bolja mera povezanosti dele v razponu ranga.
Za izraun tega koecienta potrebujemo ranirno vrsto vseh vrednosti prve (urejenostne) spremenljivke. Oznaimo z R(a) vezani rang vrednosti a glede na to ranirno vrsto.
Nato podatke razdelimo glede na vrednosti druge (dihotomne spremenljivke), nastaneta
dve skupini. Naj bodo:
x1 , x2 , . . . , x m
vrednosti prve spremenljivke v prvi skupini,
y1 , y2 , . . . , yn
pa vrednosti prve spremenljivke v drugi skupini. Vsaka spremenljivka ima svoj dele v
razponu ranga. Dele v razponu ranga za prvo skupino je:
R(x1 ) + R(x2 ) + + R(xm )
AX =
mn

m(m+1)
2

dele v razponu ranga za drugo skupino pa je:


R(y1 ) + R(y2 ) + + R(yn )
AY =
mn

n(n+1)
2

Vsota obeh je ena: AX + AY = 1, zato zadoa izraunati le enega (splaa se vzeti tisto
skupino, kjer je manj enot).
Medtem ko nam relativni rang pove poloaj elementa v skupini, nam dele v razponu
ranga pove poloaj cele skupine v celotni statistini mnoici.
Lastnosti delea v razponu ranga:
Deniran je vedno.
Velja 0 AX 1.
e sta vrednost urejenostne spremenljivke in skupina neodvisni (na statistini mnoici, iz katere so podatki), je AX = AY = 1/2. Velja tudi, da, e podatki temeljijo
na velikem enostavnem sluajnem vzorcu iz velike populacije, na kateri sta urejenost
in skupija neodvisni, sta AX in AY blizu 1/2 (malo kasneje pri testiranju se bomo
nauili, kako postaviti mejo).
Dele AX je minimalen (enak 0), e so vse vrednosti iz prve skupine
(x1 , . . . , xm ) strogo manje od vseh vrednosti iz druge skupine (y1 , . . . , yn ).

M. RAI: STATISTIKA

101

Dele AX je maksimalen (enak 1), e so vse vrednosti iz prve skupine


(x1 , . . . , xm ) strogo veje od vseh vrednosti iz druge skupine (y1 , . . . , yn ).
Dele v razponu ranga AX ni neposredno primerljiv s Spearmanovim koecientom
(t. j. Spearmanovim koecientom urejenostne spremenljivke in skupine, e prvo skupino
postavimo na prvo, drugo pa na drugo mesto), pa pa je v grobem primerljiv z 2AX
1, AX pa je v grobem primerljiv z ( + 1)/2. Zato je smiselno naslednje kvalitativno
opredeljevanje:
.
od 0 do 0 05: vrednosti iz prve skupine so skoraj vse manje od vrednosti iz druge
skupine;
.
.
od 0 05 do 0 15: vrednosti iz prve skupine so precej manje od vrednosti iz druge
skupine;
.
.
od 0 15 do 0 3: vrednosti iz prve skupine so zmerno manje od vrednosti iz druge
skupine;
.
.
od 0 3 do 0 4: vrednosti iz prve skupine so malo manje od vrednosti iz druge
skupine;
.
.
od 0 4 do 0 5: vrednosti iz prve skupine so neznatno manje od vrednosti iz druge
skupine;
.
.
od 0 5 do 0 6: vrednosti iz prve skupine so neznatno veje od vrednosti iz druge
skupine;
.
.
od 0 6 do 0 7: vrednosti iz prve skupine so malo veje od vrednosti iz druge skupine;
.
.
od 0 7 do 0 85: vrednosti iz prve skupine so zmerno veje od vrednosti iz druge
skupine;
.
.
od 0 85 do 0 95: vrednosti iz prve skupine so precej veje od vrednosti iz druge
skupine;
.
od 0 95 do 1: vrednosti iz prve skupine so skoraj vse veje od vrednosti iz druge
skupine.
Koecienta AX in ne nudita iste informacije:
Koecient AX opisuje, v kolikni meri skupina doloa nabor surovih rangov znotraj
nje: skrajni vrednosti pomenita, da so vrednosti v eni skupini vse na eni strani, v
drugi skupini pa vse na drugi strani ranirne vrste, medtem ko so vrednosti znotraj
posamezne skupine lahko razline.
Koecient pa opisuje, v kolikni meri skupina doloa vezane range znotraj nje:
skrajni vrednosti pomenita, da so vse vrednosti znotraj posamezne skupine enake
(vendar v obeh skupinah razline, sicer ni deniran).
Primer : Med 17 tudenti so izvedli anketo z naslednjima vpraanjema:
1. Ocenite stopnjo stresa pri vas v zadnjih dveh tednih.
(zelo majhna/majhna/srednja/velika/zelo velika)
2. Ali ste se v zadnjih dveh tednih posveali tudiju bolj kot ponavadi?
(da/ne)

102

M. RAI: STATISTIKA

Rezultati ankete so naslednji:


st. stresa\tudij
zelo majhna
majhna
srednja
velika
zelo velika
Skupaj

da ne
0
0
2
5
1
2
5
0
2
0
10 7

Skupaj Kumulativno Vezani rang


0
0

7
7
4
3
10
9
5
15
13
.
2
17
16 5
17

Dele v razponu ranga stresa za tudente, ki se niso posveali tudiju, je enak:

Ane =

54+29
10 7

78
. .
2 =
0 143 ,

dele v razponu ranga stresa za tudente, ki so se posveali tudiju, pa je potemtakem


. .
enak Ada = 0 857. tudenti, ki so se posveali tudiju, so bili torej precej bolj pod stresom
od tistih, ki se tudiju niso posveali.
Povezavo med skupino in vrednostjo spremenljivke testiramo z inverzijskim testom,
ki mu pravimo tudi WilcoxonMannWhitneyjev test. Testiramo nielno hipotezo, da
med skupino in spremenljivko ni povezave, ali natanneje, da je spremenljivka na obeh
skupinah enako porazdeljena. Alternativna hipoteza ima spet ve oblik:
Enostranska alternativna hipoteza v korist sprve skupine trdi, da je porazdelitev na
prvi skupini stohastino strogo veja od porazdelitve na drugi skupini.
Enostranska alternativna hipoteza v korist sprve skupine trdi, da je porazdelitev na
drugi skupini stohastino strogo veja od porazdelitve na prvi skupini.
Dvostranska alternativna hipoteza trdi, da velja ena izmed prej omenjenih enostranskih hipotez.
Za dovolj velike vzorce je inverzijski test lahko kar Z-test na testni statistiki:
r
r
3mn
3mn
Z :=
(2AX 1) =
(1 2AY ) .
m+n+1
m+n+1
Pri enostranski alternativni hipotezi v korist prve skupine izvedemo enostransko
razliico testa v desno: H0 zavrnemo, e je Z > z1 .
Pri enostranski alternativni hipotezi v korist druge skupine izvedemo enostransko
razliico testa v levo: H0 zavrnemo, e je Z < z1 .
Pri dvostranski alternativni hipotezi izvedemo dvostransko razliico testa: H0 zavrnemo, e je |Z| > z1/2 .
Inverzijski test je dobra alternativa T -testu, e sumimo, da porazdelitev katere od spremenljivk zelo odstopa od normalne, saj je T -test zasnovan na predpostavki normalnosti
(eprav je do neke mere robusten).

103

M. RAI: STATISTIKA

Primer . Na podlagi ankete iz prejnjega primera bi eleli testirati nielno hipotezo, da


posveanje tudiju ne vpliva na stopnjo stresa, proti alternativni hipotezi, da so tudenti,
ki se posveajo tudiju, bolj pod stresom od tistih, ki se ne. Dobimo:
r
3 70
.
. .
.
Z=
(2 0 857 1) = 2 44 ,
18
. .
.
kar je veje od z0.99 = 2 33, torej nielno hipotezo zavrnemo tudi pri = 0 01. Z drugimi
besedami, tudenti, ki so se posveali tudiju, so bili statistino zelo znailno bolj pod
stresom od tistih, ki se tudiju niso posveali.

3.7

Povezanost urejenostne in imenske


spremenljivke: KruskalWallisova analiza variance

Povezanost urejenostne in imenske spremenljivke merimo s KruskalWallisovim deleem


pojasnjene variance. V skladu s splono lozojo obravnave urejenostnih spremenljivk je
to dele pojasnjene variance za vezane range. Gre torej za vrsto analize variance.
e torej imenska spremenljivka G zavzame vrednosti g1 , g2 , . . . , gk , lahko range urejenostne spremenljivke indeksiramo takole:
R11 , R12 , . . . , R1n1 : rangi na enotah, kjer je G = g1
R21 , R22 , . . . , R2n2 : rangi na enotah, kjer je G = g2
..
.
Rk1 , Rk2 , . . . , Rkn2 : rangi na enotah, kjer je G = gk
Seveda velja n1 + n2 + + nk = n.

= n + 1 , skupna varianca pa je enaka:


Spet je povpreni rang vedno enak R
2
k

s2 =

in e ni vezi, je s2 =
posameznih skupinah:

i
1 XX
2
(Rij R)
n i=1 j=1

n2 1
1, R
2, . . . , R
k oznaimo povprene range na
. e zdaj z R
12

i = Ri1 + Ri2 + + Rini ,


R
ni
je pojasnjena varianca rangov enaka:
s2B =

n1
2 + n2 ( R
2 R)
2 + + nk ( R
k R)
2.
(R1 R)
n
n
n

104

M. RAI: STATISTIKA

KruskalWallisov dele pojasnjene variance (mo uinka) pa je enak:


2
KW
=

s2B
,
s2

Primer : elimo izmeriti povezavo med poutjem in barvo zgornjega dela oblaila. Za ta
namen vzamemo 20 anketirancev in:
Jih povpraamo, kako se poutijo, pri emer jim damo na voljo 5-stopenjsko lestvico.
To je urejenostna spremenljivka.
Si ogledamo barvo njihovega zgornjega oblaila. Barve razdelimo v tiri kategorije:
temne (rna, rjava, siva, temno modra, vijoliasta), bela, svetle (rumena, rdea,
roza, oranna, zelena, svetlo modra), pisane. To je imenska spremenljivka.
Rezultati ankete:
poutje\barva
zelo slabo
slabo
nevtralno
kar dobro
odlino
Skupaj
Povpreni
rang

temna
0
2
4
4
1
11
.
11 27

bela
0
0
1
1
0
2
.
12 5

svetla
0
1
1
0
0
2
.
5 25

Celostni povpreni rang:

pisana
0
0
4
1
0
5
.
10 1

Skupaj Kum. Rang


0
0

3
3
2
.
10
13
85
.
6
19
16 5
1
20
20
20

20 + 1
.
= 10 5.
2

Povpreni rangi po skupinah v zadnji vrstici tabele so dobljeni na naslednji nain:


h
i
.
.
1 = 1 2 2 + 4 8.5 + 4 16.5 + 1 20 =
11 27 ,
R
11
h
i
.
.
2 = 1 1 8.5 + 1 16.5 =
12 5 ,
R
2
h
i
. .
3 = 1 1 2 + 1 8. 5 =
R
5 25 ,
2
h
i
.
.
4 = 1 4 8.5 + 1 16.5 =
R
10 1 .
5

Skupna varianca:
i
1h
.
.
.
.
.
.
.
3 (2 10 5)2 + 10 (8 5 10 5)2 + 6 (16 5 10 5)2 + 1 (20 10 5)2 = 28 15 .
s2 =
20
Varianca znotraj skupin (pojasnjena varianca):
i
h
.
. 2
.
. 2
.
. 2
.
. 2 . .
2 . 1
11(11 2710 5) +2(12 510 5) +2(5 2510 5) +5(10 110 5) = 3 525 .
sB =
20

105

M. RAI: STATISTIKA
KruskalWallisov dele pojasnjene variance:
.
. 3 525 . .
2
KW = . = 0 125 .
28 15
Gre torej za nizko povezanost.

Pojasnjeno varianco rangov priblino testiramo s testom hi kvadrat na testni statistiki:


K=

12 2
s ,
n+1 B

in sicer s k 1 prostostnimi stopnjami: nielno hipotezo zavrnemo, e je K > 21 (k 1).


Pri prejnjem primeru pride
. 12 .
. .
K=
3 525 = 2 01 ,
21
. .
.
Pri stopnji znailnosti = 0 05 moramo to primerjati s 20.95 (3) = 7 81, torej povezava
med poutjem in barvo zgornjega oblaila ni bila statistino znailna.

3.8

Povzetek bivariatne analize


dihotomna
dihotomna
imenska
urejenostna
intervalska

imenska

urejenostna

intervalska

Cramrjev V ,
test hi kvadrat
Cramrjev V , Cramrjev V ,
test hi kvadrat test hi kvadrat
dele rel. ranga, KruskalWallis, Spearmanov ,
T -test
inverzijski test test hi hvadrat
r pb ,
T -test

ANOVA,
F -test

Spearmanov ,
T -test

Pearsonov r,
T -test

106

M. RAI: STATISTIKA

Literatura
[1] A. Ferligoj: Osnove statistike na prosojnicah. Ljubljana, 1997.
[2] R. Jamnik: Matematina statistika. DZS, Ljubljana, 1980.
[3] J. A. ibej: Matematika: kombinatorika, verjetnostni raun, statistika. DZS, Ljubljana, 1994.
[4] J. Sagadin: Osnovne statistine metode za pedagoge. FF, Ljubljana, 1992.
[5] M. Blejec: Uvod v statistiko. EF, Ljubljana, 1996.
[6] L. Pfajfar: Statistika 1. EF, Ljubljana, 2005.
[7] F. Arh, L. Pfajfar: Statistika 1 z zgledi. EF, Ljubljana, 2005.
[8] M. Blejec, M. LovreiSarain, M. Perman, M. traus: Statistika. Visoka ola za
podjetnitvo Piran, 2003. Dosegljivo na:
http://valjhun.fmf.uni-lj.si/~mihael/ul/vs/pdfpredavanja/gradiva.pdf
[9] A. Juriic: Verjetnostni raun in statistika. Dosegljivo na:
http://lkrv.fri.uni-lj.si/~ajurisic/stat10/
[10] B. Petz: Osnovne statistike metode. Liber, Zagreb, 1985.
[11] J. A. Rice: Mathematical Statistics and Data Analysis. Thomson/Brooks/Cole, Belmont, 2007.
[12] D. Freedman, R. Pisani, R. Purves: Statistics. Norton&Company, New York, 1998.
[13] A. Ferligoj: Naloge iz statistinih metod. Ljubljana, 1981.
[14] F. Arh, L. Pfajfar: Statistika 1. Zbirka reenih izpitnih nalog. EF, Ljubljana, 2002.
[15] M. R. Spiegel: Schaums outline of theory and problems of statistics. New York, 1999.

107

108

M. RAI: STATISTIKA

Viri
[16] A. Agresti, B. A. Coull: Approximate is better than exact for interval estimation
of binomial proportions. The American Statistician 52 (1998), 119126.
[17] R. B. DAgostino: Tests for the Normal Distribution. V knjigi: R. B. DAgostino,
M. A. Stephens: Goodness-of-Fit Techniques. Marcel Dekker, New York, 1986.
[18] B. Z. Doktorov: George Gallup: Biography and Destiny. Poligraf-Inform, Kaluga,
2011.
[19] D. Freedman, P. Diaconis: On the histogram as a density estimator: L2 theory.
Zeitschrift fr Wahrscheinlichkeit und verwandte Gebiete 57 (1981), 453476.
[20] G. Gallup: The Sophisticated Poll Watchers Guide. Princeton Opinion, Princeton,
1972.
[21] Landon, 1,293,669; Roosevelt, 972,897. Literary Digest 31. 10. 1936, 56.
[22] P. Squire: Why the 1936 Literary Digest Poll failed. The Public Opinion Quarterly
52 (1988), 125133.

109

You might also like