6 VJ

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 11

5.

Procjene parametara pomoću uzoraka

5.1. Uvod
Grana statistike koja kaže kako treba birati uzorak da bi se dobila neka informa-
cija o populaciji, zove se induktivna statistika. Dio statistike koji se bavi samo
opisom neke izdvojene grupe, bez da se iz toga izvlači ikakav zaključak o cjelokupnoj
populaciji, zove se opisna ili deduktivna statistika.

5.2. Definicije osnovnih pojmova

Neka je zadana slučajna varijabla Y s funkcijom razdiobe F . Napra-


vimo n njezinih nezavisnih identičnih kopija, koje nazovimo s Y1 , . . . , Yn
s identičnom razdiobom F . Tako dobivenu n-torku slučajnih varijabli na-
zivamo slučajni uzorak dimenzije n, a vrijednosti koje one poprimaju
y1 , . . . , yn nazivamo vrijednostima uzorka.

Bez obzira izvlačimo li uzorak duljine n iz konačne populacije s vraćanjem


ili bez vraćanja, ili iz beskonačne populacije, uvijek je srednja vrijednost
očekivanja uzorka jednaka očekivanju populacije

µY = µY .

Ako uzorak duljine n izvlačimo iz konačne populacije bez vraćanja, onda


je varijanca svih mogućih očekivanja uzoraka

σY2 np − n
σY2 = · .
n np − 1

Ako uzorak duljine n izvlačimo iz beskonačne populacije ili iz konačne


populacije s vraćanjem, onda je varijanca svih mogućih očekivanja uzo-
raka
σ2
σY2 = Y .
n

Zadatak 5.1. Populacija na nekom kolegiju broji četiri studenta. Mase ta četiri
studenta su: 73, 74, 87, 95 kg. Nađite
(a) očekivanje te populacije,
(b) varijancu, odnosno standardnu devijaciju te populacije.
50 5. Procjene parametara pomoću uzoraka

(c) Radimo sve moguće uzorke po 3 studenta (s ponavljanjem). Nađite očekivanje


za varijablu Y koja predstavalja sredinu uzoraka.
(d) Nađite devijaciju σY za varijablu iz zadatka (c).
(e) Radimo sve moguće uzorke po 3 studenta (bez ponavljanja). Nađite očekivanje
za varijablu Y koja predstavlja sredinu uzoraka.
(f) Nađite devijaciju σY za varijablu iz zadatka (e).
Rješenje. (a) Očekivanje te populacije je
73 + 74 + 87 + 95
µY = = 82.25 kg.
4
(b) Varijanca te populacije je

(73 − 82.25)2 + (74 − 82.25)2 + (87 − 82.25)2 + (95 − 82.25)2


σY2 =
4
85.5625 + 68.0625 + 22.5625 + 162.5625
= = 84.6875 kg,
4
dok je standardna devijacija σY ≈ 9.20258 kg.
(c) Budući da vrijedi µY = µY i za uzorak bez i za uzorak s ponavljanjem, onda je
µY = 82.25 kg.
(d) Za uzorak s ponavljanjem duljine n vrijedi da je
σY
σY = √ .
n
U ovom slučaju je n = 3, pa je
9.20258
σY ≈ √ ≈ 5.31311.
3
(e) Vidjeti rješenje (c).
(f) Za uzorak bez ponavljanja duljine n iz populacije np vrijedi da je
s
σY np − n
σY = √ · .
n np − 1

U ovom slučaju je np = 4, n = 3, pa imamo


r
9.20258 4−3 9.20258
σY ≈ √ · = ≈ 3.067527.
3 4−1 3
Zadatak 5.2. Proučavanjem visina muške populacije pomoću uzoraka od po 1000
muškaraca došlo se do sljedećih podataka: standardna devijacija uzoraka σX =
0.3 cm, prosječna visina uzoraka je µX = 178 cm. Procijenite koliki dio populacije
je niži od 170 cm, a koliki dio populacije je viši od 2 m, uz pretpostavku da visina
muške populacije ima normalnu razdiobu.
5.2. Definicije osnovnih pojmova 51

Rješenje. Nepoznato očekivanje populacije µX procjenjujemo sredinom uzorka, pa


je
µX = µX = 178 cm.
Nepoznatu standarnu devijaciju populacije procjenjujemo s
√ √
σX = nσX = 1000 · 0.3 ≈ 9.48683 cm.

Dakle, populacija se približno ponaša kao normalna slučajna varijabla N (µX =


178, σX = 9.48683). Sada je dio populacije koji je niži od 170 cm
 
X − 178 170 − 178
Pr(X < 170) = Pr < ≈ Pr(Z < −0.84)
9.48683 9.48683
= 0.5 − Φ0 (0.84) = 0.5 − 0.29954 = 0.20046.

Konačno, dio populacije viši od 2 m je


 
X − 178 200 − 178
Pr(X > 200) = 1 − Pr(X ≤ 200) = 1 − Pr ≤
9.48683 9.48683
≈ 1 − Pr(Z ≤ 2.32) = 1 − (0.5 + Φ0 (2.32) = 0.5 − Φ(2.32)
= 0.5 − 0.48983 = 0.01017.

Zadatak 5.3. Slučajna varijabla X ima parametre µ = 100, σ = 3. Koja je vjero-


jatnost da je sredina slučajnog uzorka veličine n = 36 u granicama [99.25, 100.2]?

Rješenje. Budući da se radi o velikom uzorku (n ≥ 30), onda je za praktične potrebe


taj uzorak normalna slučajna varijabla kojoj je
σX 3 3
µX = µX = 100, σX = √ = √ = = 0.5.
n 36 6

Vjerojatnost da je sredina slučajnog uzorka X između 99.25 i 100.2 je


 
99.25 − 100 X − 100 100.2 − 100
Pr(99.25 ≤ X ≤ 100.2) = Pr ≤ ≤
0.5 0.5 0.5
= Pr(−1.5 ≤ Z ≤ 0.4) = F (0.4) − F (−1.5)
= (0.5 + Φ0 (0.4)) − (0.5 − Φ0 (1.5)) = Φ0 (0.4) + Φ0 (1.5)
= 0.15542 + 0.43319 = 0.58861.

Zadatak 5.4. Parametri populacije su µ = 1500, σ = 20. Koja je vjerojatnost da


sredina X slučajnog uzorka te populacije veličine n = 30 bude u intervalu µ ± 3?

Rješenje. Ponovno, radi se o velikom uzorku, koji bi se trebo ponašati kao normalna
slučajna varijabla, samo s parametrima
σX 20
µX = µX = 1500, σX = √ = √ ≈ 3.65148.
n 30
52 5. Procjene parametara pomoću uzoraka

Za sredinu uzorka X tražimo


 
µ−3−µ X −µ µ+3−µ
Pr(µ − 3 ≤ X ≤ µ + 3) = Pr ≤ ≤
σ σ σ
     
3 3 3 3
= Pr − ≤ Z ≤ =F −F −
σ σ σ σ
       
3 3 3
= 0.5 + Φ0 − 0.5 − Φ0 = 2Φ0 .
σ σ σ

U ovom slučaju je
 
3
Pr(1500 − 3 ≤ X ≤ 1500 + 3) = 2Φ0 ≈ 2Φ0 (0.82)
3.65148
= 2 · 0.29389 = 0.58778.

Zadatak 5.5. Lhasa apso ima njušku duljine µ = 4 cm, a očekivano je odstupanje
σ = 0.5 cm. Promatramo uzorke (uz dozvoljeno ponavljanje) od 30 jedinki iz
različitih uzgajivačnica. S kojom će vjerojatnošću srednja vrijednost duljine njuške
takvog uzorka biti između 3.7 cm i 4.3 cm, što su za tu vrstu dozvoljene veličine na
natjecanjima?

Rješenje. Ponovno, budući da se radi o velikim uzorcima, uzorak se ponaša kao


normalna slučajna varijabla s parametrima

σX 0.5
µX = µX = 4 cm, σX = √ = √ ≈ 0.091287 cm.
n 30

Sada treba odrediti vjerojatnost da je sredina uzorka X u zadanim granicama,


 
3.7 − 4 X −4 4.3 − 4
Pr(3.7 ≤ X ≤ 4.3) = Pr ≤ ≤
0.091287 0.091287 0.091287
≈ Pr(−3.29 ≤ Z ≤ 3.29) = 2Φ0 (3.29) = 2 · 0.49949 = 0.99898.
5.3. Procjena parametara populacije 53

Zadatak 5.6. Prosječan sedamdesetogodišnjak neke populacije ima µ = 25 vlastitih


zubiju, a varijanca broja zubiju te populacije sedamdesetogodišnjaka je σ 2 = 1.39.
Iz populacije od 1500 sedamdesetogodišnjaka radimo 15 uzoraka od po 100 ljudi (bez
vraćanja). Koliko je vjerojatnost da će sredina broja zubiju u slučajnom uzorku biti
veća ili jednaka 25.2? U koliko uzoraka će se to vjerojatno dogoditi?
Rješenje. Očekivanje uzoraka µX bit će jednako očekivanju populacije µ = 25, dok
će za varijancu (zbog ponavljanja!) vrijediti
2
2 σX np − n 1.39 1500 − 100
σX = · = · ≈ 0.012982,
n np − 1 100 1500 − 1

pa je σX ≈ 0.113939. Traži se
 
X − 25 25.2 − 25
Pr(X > 25.2) = 1 − Pr(X ≤ 25.2) = 1 − Pr ≤
0.113939 0.113939
≈ 1 − Pr(Z ≤ 1.75) = 1 − (0.5 + Φ0 (1.75)) = 0.5 − Φ0 (1.75)
= 0.5 − 0.45994 = 0.04006.

Broj uzoraka u kojima bi to trebalo vrijediti je 15 · 0.04006 = 0.6009, tj. ako rezultat
zaokružimo, u jednom uzorku.

5.3. Procjena parametara populacije

Neka je g funkcija g : Rn → R. Slučajnu varijablu

Θ = g(Y1 , Y2 , . . . , Yn )

zovemo statistika, ako funkcija g ne ovisi o nepoznatim parametrima.

Nepoznato očekivanje µ populacije Y procjenjujemo sredinom uzorka:

Y1 + · · · + Yn
Y = .
n

Ako je očekivanje poznato, varijancu Var(Y ) procjenjujemo na sljedeći


način:
(Y1 − µ)2 + · · · + (Yn − µ)2
Sb2 = ,
n
pri čemu je µ poznato očekivanje slučajne varijable.
54 5. Procjene parametara pomoću uzoraka

Nepoznato očekivanje µ populacije Y procjenjujemo sredinom uzorka:

Y1 + · · · + Yn
Y = ,
n
a varijancu procjeniteljem S 2

(Y1 − Y )2 + · · · + (Yn − Y )2
S2 = .
n−1

Zadatak 5.7. Uzet je uzorak od četiri studenta iz populacije studenata na nekom


kolegiju. Mase ta četiri studenta su: 73, 74, 87, 95 kg. Iz uzorka procijenite

(a) očekivanje populacije,


(b) varijancu populacije, ako je poznato očekivanje populacije koje iznosi 82 kg,
(c) očekivanje i varijancu te populacije.

Rješenje. (a) Očekivanje populacije X procjenjujemo sredinom uzorka

73 + 74 + 87 + 95
µX = µX = = 82.25 kg.
4
(b) Ako je poznato očekivanje populacije, varijanca te populacije procjenjujemo s

(73 − 82)2 + (74 − 82)2 + (87 − 82)2 + (95 − 82)2


σY2 =
4
81 + 64 + 25 + 169
= = 84.75 kg.
4
(c) Očekivanje populacije procjenjujemo sredinom uzorka (vidjeti (a)), pa je µX =
µX = 82.25 kg, a varijancu s

(73 − 82.25)2 + (74 − 82.25)2 + (87 − 82.25)2 + (95 − 82.25)2


σY2 =
3
85.5625 + 68.0625 + 22.5625 + 162.5625
= = 112.916̇ kg.
3

5.4. Intervali pouzdanosti


Neka su µS i σS očekivanje i standardna devijacija uzorka neke statistike S. Ako
smo uzeli dovoljno velike uzorke n ≥ 30 (koji se mogu ponavljati ili iz beskonačne
populacije), mnoge statistike S ponašaju se kao normalne slučajne varijable s očeki-
σ
vanjem µS ≈ µ i standardnom devijacijom σS ≈ √ . Ovdje ne treba paziti imamo
√ √ n
li u nazivniku n ili n − 1, jer je za dovoljno velike n to za sve praktične potrebe
5.4. Intervali pouzdanosti 55

jednako. Dakle,
 
σ
S ≈ N µ, √ .
n

Drugim riječima, sa slučajnom varijablom S ponašamo se kao s normalnom slučaj-


nom varijablom. Ako za statistiku uzmemo sredinu uzorka Y , onda je
 
σ
Pr |y − µ| < k √ = 2(F (k) − F (0)) = 2Φ0 (k),
n
pri čemu je y vrijednost slučajne varijable Y .

Ako je uzorak duljine n izvučen iz slučajne varijable kojoj je proporcija


uspjeha p, onda je interval pouzdanosti za p
r
p(1 − p)
p=p±k
n
ako je uzorak izvučen iz beskonačne populacije ili iz konačne populacije
s vraćanjem, r s
p(1 − p) np − n
p=p±k ,
n np − 1
ako je izvučen iz konačne populacije veličine np . Pritom je k koeficijent
pouzdanosti.

Ako je uzorak duljine n, n ≥ 30 uzet iz binomne slučajne varijable kojoj ne znamo


p, onda standardnu devijaciju σ možemo zamijeniti sa standardnom devijacijom
uzorka, tj. p p
σ = p(1 − p) ≈ s = p(1 − p).
Ako želimo jednostavnu procjenu intervala pouzdanosti za proporcije, onda mo-
žemo iskoristiti da je
√ p 1
σ = pq = p(1 − p) ≤ .
2
Tada za interval pouzdanosti vrijedi
p
p(1 − p) k
p=p±k √ ≈p± √ .
n 2 n
Posebno, ako je pouzdanost 95.45%, onda je k = 2, pa prethodna formula glasi
p
p(1 − p) 1
p=p±2 √ ≈p± √ .
n n

Zadatak 5.8. Pri mjerenju vremena reakcije na neki događaj psiholozi su utvrdili
da je standardna devijacija za taj događaj 0.05 sekundi. Koliko velik uzorak moramo
uzeti tako da s pouzdanošću
56 5. Procjene parametara pomoću uzoraka

(a) 95%,
(b) 99%,
budemo sigurni da greška u procjeni neće prijeći 0.01?
Rješenje. Za pouzdanost 95% je k = 1.96, a za 99% je k = 2.58. Za proporcije
vrijedi
σ
p = p ± k√ .
n
Želimo da za grešku procjene vrijedi
σ
k √ ≤ 0.01.
n
Odatle za n izlazi  2  2
σ 0.05
n≥ k = k = 25k 2 ,
0.01 0.01
pa za zadane k-ove imamo
(a) n ≥ 96.04, tj. mora biti n ≥ 97,
(b) n ≥ 166.41, tj. mora biti n ≥ 167.
Zadatak 5.9. Pri mjerenju vremena reakcije na neki događaj psiholozi su testi-
rali slučajni uzorak od 256 ljudi. Kolika najviše smije biti utvrđena standardna
devijacija tog događaja, tako da s pouzdanošću
(a) 95%,
(b) 99%,
budemo sigurni da greška u procjeni neće prijeći 0.01?
Rješenje. Za pouzdanost 95% je k = 1.96, a za 99% je k = 2.58. Za proporcije
vrijedi
σ
p = p ± k√ .
n
Želimo da za grešku procjene vrijedi
σ
k √ ≤ 0.01.
n
Odatle dobivamo √
0.01 · n 0.16
σ≤ = ,
k k
pa uvrštavanjem k-ova izlazi
(a) σ ≤ 0.081633,
(b) σ ≤ 0.062016.
Zadatak 5.10. Slučajni uzorak od 50 kolokvija iz matematike, od ukupno 200 ko-
lokvija, pokazao je očekivanje 75 i standardnu devijaciju 10.
5.4. Intervali pouzdanosti 57

(a) Koji je 95% interval pouzdanosti za procjenu očekivanja svih 200 kolokvija?
(b) Koji je stupanj pouzdanosti ako možemo reći da se sredina svih 200 zadaća
nalazi u intervalu 75 ± 1?
Riješite primjer na dva načina:
• ako pretpostavljamo da je populacija dovoljno velika prema uzorku,
• ako pretpostavljamo da je populacija konačna i uzorak relativno velik prema
populaciji.
Rješenje. Za 95% pouzdanost, k = 1.96.
(a) Ako je populacija ‘dovoljno velika’, onda imamo

σ 10
p = p ± k √ = 75 ± 1.96 √ = 75 ± 2.77185858,
n 50
a ako je uzorak velik prema populaciji, onda imamo
s r
σ np − n 10 150
p = p ± k√ · = 75 ± 1.96 √ · = 75 ± 2.40652380.
n np − 1 50 199

(b) Ako je populacija ‘dovoljno velika’, onda mora biti greška procjene
σ
k √ ≤ 1,
n

tj. mora vrijediti √



n 50
k≤ = = 0.70710678.
σ 10
Sad se prisjetimo kako iz k očitavamo pouzdanost iz tablica normalne slučajne
varijable za Φ0 . Za pouzdanost vrijedi da je 2Φ0 (k) = 2 · 0.26114 = 0.52228 ili
52.228%. A ako je uzorak velik prema populaciji, onda imamo
s
σ np − n
k√ · ≤ 1,
n np − 1

pa slijedi
√ s √ r
n np − 1 50 199
k≤ · = = 0.81445278.
σ np − n 10 150
Ponovno je pouzdanost 2Φ0 (k) = 2 · 0.29103 = 0.58206 ili 58.206%.

Zadatak 5.11. U nekom okrugu slučajni uzorak od 100 glasača pokazao je da kan-
didat A dobiva izbore s 57% glasova. Nađite 99.73% pouzdanost za postotak glasova
svih glasača u tom okrugu za kandidata A.
58 5. Procjene parametara pomoću uzoraka

Rješenje. Za pouzdanost 99.73%, k = 3. Prvo moramo procijeniti σ, a zatim izra-


čunati procjenu za p
p √
σ ≈ s = p(1 − p) = 0.57 · 0.43 = 0.49507575,
σ 0.49507575
p = p ± k √ = 0.57 ± 3 √ = 0.57 ± 0.148522725.
n 100

Zadatak 5.12. Koliko veliki uzorak glasača moramo uzeti u prethodnom primjeru,
tako da s pouzdanošću 99.73% budemo sigurni da je kandidat izabran?

Rješenje. Za pouzdanost 99.73%, k = 3. Da bi kandidat bio izabran mora biti


p > 50%. Prema tome, greška procjene ne smije biti veća od 7%, odnosno 0.07.
Dakle, imamo
σ
k √ ≤ 0.07,
n
pa je
 2  2
σ 0.49507575
n≥ k = 3 = 450.18.
0.07 0.07
Dakle, moramo uzeti uzorak od 451 glasača.

Zadatak 5.13. Predsjednički kandidat George pobijedio je na izborima sa 60%


glasova. Kolika je vjerojatnost da u slučajnom uzorku od 200 glasača kandidat
George dobije manje od 50% glasova?

Rješenje. Za Georgea znamo proporciju broja glasova p = 0.6. Nadalje, proporcija


uspjeha je p, pa je standardna devijacija za proporciju
p √
σ = p(1 − p) = 0.6 · 0.4 ≈ 0.48990.

Za uzorak duljine 200 je p ≈ p = 0.6, a

σ 0.48990
σ=√ = √ ≈ 0.03464.
n 200

Uzorak od 200 ljudi ponaša se kao normalna slučajna varijabla X ∼ N (0.6, 0.03464).
Tražimo
 
X − 0.6 0.5 − 0.6
Pr(X ≤ 0.5) = Pr ≤ ≈ Pr(Z ≤ −2.88)
0.03464 0.03464
= 0.5 − Φ0 (2.88) = 0.5 − 0.49801 = 0.00199.

Zadatak 5.14. Azori su jedino mjesto u Europi gdje raste ananas. Od ananasa pla-
siranog na tržište 95% je prvoklasno. Rade se pošiljke od po 3000 ananasa. U kojim
će se granicama nalaziti proporcija prvoklasnog ananasa u pošiljci s koeficijentom
pouzdanosti k = 2.4?
5.4. Intervali pouzdanosti 59

Rješenje. Opažena proporcija prvoklasnog ananasa je p = 0.95. Odatle možemo


procijeniti i σ, p √
σ ≈ p(1 − p) = 0.95 · 0.05 ≈ 0.21794.
sada je
σ 0.21794
p = p ± k √ = 0.95 ± 2.4 = 0.95 ± 0.00955.
n 3000
Dakle, u pošiljci ima između

(0.95 − 0.00955) · 3000 = 2821.35

i
(0.95 + 0.00955) · 3000 = 2878.65
ananasa prve klase.
Zadatak 5.15. Vjeruje se da je u nekom okrugu razlika broja glasova za jednog,
odnosno drugog kandidata vrlo malena. Koliko velik slučajni uzorak moramo oda-
brati, da bismo s 92% pouzdanošću bili sigurni da smo kandidatov rezultat korektno
zaokružili na cjelobrojni postotak dobivenih glasova.
Rješenje. Za 92% pouzdanost, moramo izračunati k. Budući da je
 
σ
Pr |y − µ| < k √ = 2Φ0 (k),
n

onda je Φ0 (k) = 0.46, pa iz tablica čitamo da je

k = 1.75.

Budući da kandidati dobivaju približno jednak broj glasova, onda je p = 0.5,


p
σ ≈ s = p(1 − p) = 0.5.

Greška koju smo napravili je


0.5
1.75 · √
n
i ona mora biti manja od pola posto, tj. mora biti
0.5
1.75 · √ ≤ 0.005.
n

Odatle dobivamo  2
1.75 · 0.5
n≥ = 30625.
0.005

You might also like