Download as pdf or txt
Download as pdf or txt
You are on page 1of 9

Estadistica ADE/ECO/ADE-DRET 2017

Guia 3 – Tema 3: Intervals de Confiança

Continguts

Material
1. Aquest document

2. De la bibliografia:
Newbold: Capı́tol 8.
Moore: 6.1, 6.2, 7.2, 8.2.

Contingut d’aquest document

Índex
1 Introducció – Estimació amb confiança 1

2 Intervals de confiança 3
2.1 IC per a µ en N(µ, 2
0) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.1 Exemples – IC per a µ en N(µ; 2
0) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 IC per a µ en N(µ, 2
) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2.1 Exemples – IC per a µ en N(µ; 2
) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.3 IC per a µ (X qualsevol) i p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3.1 Exemples - IC per a µ (X qualsevol) i p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4 Sobre la confiança estadı́stica i intervals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.5 Funcions rellevants de R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3 Exercicis (llista 2 - pel seminari 3) 9

1 Introducció – Estimació amb confiança


En la pràctica, no només interessa donar una estimació d’un paràmetre sinó que sovint es vol donar com a
resposta un interval que permeti precisar la incertesa existent en la estimació.
Per concretar idees, suposem que volem estimar la despesa mitjana µ en la campanya actual de Nadal pels
ciutadans (de més de 18 anys) de Barcelona. Es pregunta a 100 ciutadans sobre la despesa realitzada i s’obté que
x̄100 = 340.5; què podem afirmar sobre la despesa mitjana µ de la població de ciutadans de Barcelona?
Pel Teorema del Lı́mit Central, coneixem que

X-µ
⇠ N(0, 1) (1)
p
n

Si per experiència sabem que = 25 euros (ja veurem després que aquest supòsit no és molt realista...) tenim
que la desviació tı́pica de X̄, considerada en base a mostres de grandària n = 100, serà igual a

25
p =p = 2.5
n 100

Aixı́ doncs, si seleccionem moltes mostres de grandària 100 i determinem la mitjana de cadascuna de les mostres
podrı́em tenir una situació com la que segueix,

Mostra 1 n=100 x̄100 = 340.5


Mostra 2 n=100 x̄100 = 339.7
Mostra 3 n=100 x̄100 = 341.2
.. .. ..
. . .

i si representem gràficament aquests valors obtinguts per la variable aleatòria mitjana mostral, obtindrı́em una
distribució normal de mitjana igual a la mitjana desconeguda µ i desviació tı́pica igual a 2.5, en base a (1).
Aixı́, per la regla del 68 –95 –99.7 podem dir que en un 95% de les mostres (aproximadament) es satisfà

|X̄ - µ| < 2 · 2.5

o equivalentment

X-µ
P(-2 < < 2) ⇡ 0.95
p
n

Per cada mostra, podem construir un interval, de centre X̄ i radi p


n
. S’espera que, en el mostreig repetit, el 95%
(aproximadament) dels intervals,

X̄ ± 2 p
n

continguin la veritable µ. Podem treballar amb la distribució normal de forma exacta, i no pas amb la regla del
68–95–99.7... Com

X-µ
P(1.96 < < 1.96) = 0.95
p
n

podem afirmar que, en el mostreig repetit, s’espera que el 95% dels intervals,

X̄ ± 1.96 p
n

continguin la veritable µ.

2
Un darrer comentari és que en la pràctica no repetim el mostreig sinó que treballem amb una mostra concreta.
No podem saber categòricament si la nostra és del 95% per les que X̄ ± 2 pn conté µ o bé si és del 5% restant...
Però pensa-ho en els següents termes, si tu tens un dau amb 100 cares de les que 95 són blanques i 5 són negres,
a què apostes? Amb els intervals de confiança passa quelcom similar: confiem en un 95% que

X̄ ± 1.96 p
n

contingui la veritable µ.
Concretem aquestes idees, de forma sistemàtica, per a diferents situacions ...

2 Intervals de confiança

2.1 IC per a µ en N(µ, 2


0)

Sigui X ⇠ N(µ, 2
0) sent 2
0 coneguda.
Per a construir un interval de confiança per a µ amb 2
0 coneguda amb la confiança 1 - ↵ podem seguir les
següents etapes.

1. Estadı́stic
X-µ
⇠ N(0, 1)
p0
n

2. Valors crı́tics respecte de la distribució de referència

P(-z ↵2 < N(0, 1) < z ↵2 ) = 1 - ↵

Aquests valors crı́tics son els que capturen la probabilitat central C = 1 - ↵ per sota de la corba normal
estandarditzada.
3. Obtenció de l’interval. En desfer l’estandardització tenim,

0
X ± z ↵2 p
n

és un interval de confiança per a µ en X ⇠ N(µ, 2


0 ), amb una confiança de C = 1 - ↵.

Observem que X és el centre de l’interval. La quantitat z ↵2 p0n és el marge d’error; fixem-nos que compren dues
parts: la corresponent al valor crı́tic i que depèn de la confiança establerta i la corresponent a l’error estàndard
que és la desviació de la mitja mostral. L’error estàndard està fortament relacionat amb la mida mostra i a mesura
que aquesta augmenta, la longitud de l’interval disminueix, millorant aixı́ la precisió de l’estimació.
Com a exemple, tal i com havı́em vist en la secció 1, en ser P(-1.96 < N(0, 1) < 1.96) = 0.95, tenim que
0
X ± 1.96 p
n

és un IC per a µ en X ⇠ N(µ, 2


0 ), amb un 95% de confiança.
Remarcar novament que el conjunt obtingut és aleatori: a mesura que l’atzar doni lloc a diferents mostres,
n’obtindrem diferents intervals. Tornarem sobre aquesta idea més endavant...

3
2.1.1 Exemples – IC per a µ en N(µ; 2
0)

Exemple 1. Suposem que volem estimar el nivell mig actual µ de colesterol en sang per a uns pacients que s’estan
sotmetent a un tractament experimental. Suposant que aquestes observacions es distribueixen normalment amb
desviació = 12 mg/dl, es voldria obtenir un interval per estimar µ en funció de mostres de grandària 25.
Havent observat x = 116 es demana trobar un IC al 95% per a µ sabent que = 12

Iµ = (111.296, 120.704)
Exemple 2. Donada una població normal N(µ; 5.72712 ) s’extreu una mostra de grandària n = 36 amb x = 114.2.
Trobeu un IC per a µ al 95%.

Iµ = (112.3291, 116.0709)
Exemple 3. Una mostra de transistors de grandària 16 ha presentat una vida mitjana de 735 hores. Es coneix
que la desviació tı́pica = 12 hores. Suposant normalitat de les dades, calculeu un interval de confiança al 95%
per a la mitjana poblacional µ.

Iµ = (729.12, 740.88)
Exemple 4. Per a estimar la mitjana d’una població N(µ, 20 ) sent 20 conegut, determinar la grandària mostral
necessària n per tal que l’interval de confiança per a µ al 99% tingui longitud donada L.
En ser el valor crı́tic corresponent aproximadament igual a 2.575, es tracta de resoldre la inequació sobre el marge
d’error donada per
L
z ↵2 p0n  2

✓ ◆2
2 · 2.575 0
n
L
Exemple 5. Una empresa fabrica peces que tenen una longitud distribuı̈da de forma normal amb desviació tı́pica
de 40 mm. Si una mostra de 30 peces té una mitjana de longitud de 780 mm, calculeu un interval de confiança al
96% de la mitjana del pes de les peces produı̈des per aquesta empresa.

Iµ = (764.9924, 795.0076)
Exemple 6. En la mateixa situació de l’exemple anterior, de quina grandària haurı́em de prendre una mostra si
volguéssim un error de la mitjana mostral inferior a 10 mm amb un 96% de confiança?

n > 67.5684 ) n 68

2.2 IC per a µ en N(µ, 2


)

En el cas en que 2
desconeguda, farem servir com a estadı́stic de referència

X-µ
⇠ tn-1
pS
n

sent
n
1 X
S2 = (Xi - X)2
n-1
i=1

4
La distribució tg formalment s’obté com
N(0, 1)
q 2 ⇠ tg
g
g

essent el numerador i el denominador variables aleatòries independents.


Es verifica,

1. La distribució tg és simètrica


g
2. E[tg ] = 0, Var[tg ] = g-2 (g > 2)

3. És més dispersa que la N(0, 1)

4. Tendeix a N(0, 1) en augmentar n

Sigui X ⇠ N(µ, 2 ) sent 2 desconeguda. Per a construir un interval de confiança per a µ amb 2
desconeguda
amb la confiança 1 - ↵ podem seguir les següents etapes,

1. Estadı́stic
X-µ
⇠ tn-1
pS
n

2. Valors crı́tics respecte de la distribució de referència

P(-t ↵2 < tn-1 < t ↵2 ) = 1 - ↵

3. Obtenció de l’interval.
S
X ± t ↵2 p
n
és un interval de confiança per a µ en X ⇠ N(µ, 2
) amb una confiança de C = 1 - ↵.
Com a exemple, n = 25, ↵ = 0.05

P(-2.064 < t24 < 2.064) = 0.95

dóna lloc a
S
X ± 2.06 p
n

que és un interval per a µ amb un 95% de confiança.

Observem que es manté l’estructura de centre ± marge d’error; el centre no ha canviat respecte de la situació
anterior però el marge d’error sı́, en ser l’estadı́stic de referència i la seva distribució de probabilitat ara diferents.

2.2.1 Exemples – IC per a µ en N(µ; 2


)

Exemple 7. D’una mostra de grandària 18 d’una població normal s’ha obtingut x = 26.82 i s2 = 61.63. Trobeu
un interval de confiança al 99% per a la mitjana poblacional.

Iµ = (21.4576, 31.1824)

5
Exemple 8. Una mostra aleatòria dels salaris per hora de nou mecànics dona els següents resultats,

10.5, 11, 9.5, 12, 10, 11.5, 13, 9, 8.5

Trobar un interval de confiança amb ↵ = 0.05 pel salari mitjà per hora si,

1. Es coneix que = 1.5: Iµ = (9.5755, 11.5355)


2. Es desconeix : Iµ = (9.4277, 11.6834)
3. Observem que el segon interval és més ampli que el primer doncs la t8 és més dispersa que la N(0, 1)

Exemple 9. Per a una distribució N(µ, 2 ) s’ha observat una mostra de grandària 25 amb s = 1.5 construint-
se un interval de confiança que té com a resultat (9.3484, 10.6516). Quina és la confiança associada a aquest
interval?

t⇤24 = 2.172 ) 96%

2.3 IC per a µ (X qualsevol) i p

En el cas de no disposar d’una distribució normal en les dades mostrejades, podem també construir intervals
de confiança per la mitjana poblacional µ d’una variable aleatòria, sempre que disposem d’una mida de mostra
prou gran. Un IC (aproximat) per al valor esperat µ d’una variable aleatòria X es segueix de l’estadı́stic,

X-µ
⇡ N(0, 1)
pS
n

on aquesta aproximació millora a mesura que la mida mostral n augmenta.


Aquestes idees són d’especial rellevància en el cas de la construcció d’intervals de confiança aproximats per a la
proporció. Sigui X ⇠ Bern(p). Per a construir un interval de confiança per a p amb la confiança 1 - ↵ cobrim les
següents etapes.

1. Estadı́stic

^-p
p
q ⇠ N(0, 1)
^q
p ^
n

Observació: tot i que la distribució és aproximadament normal, entenem pel que segueix que la mida de
mostra és prou gran de manera que l’error subjacent és inapreciable.
2. Valors crı́tics respecte de la distribució de referència

P(-z ↵2 < N(0, 1) < z ↵2 ) = 1 - ↵

3. Obtenció de l’interval.
r
^q
p ^
^ ± z ↵2
p
n
amb una confiança C = 1 - ↵.

6
Com a exemple,

P(-1.96 < N(0, 1) < 1.96) = 0.95

dóna lloc a
r
^q
p ^
^ ± 1.96
p
n
que és un interval de confiança per a p al 95%.

Observem una vegada més que es manté l’estructura de centre ± marge d’error però han canviat les expressions
per tots dos centre i marge d’error, doncs el nou estadı́stic pivot aixı́ ho promou. Tot i aixı́ fem notar que el marge
d’error continua depenent de manera inversa de la mida mostral i doncs a mesura que aquesta augmenta, la
longitud de l’interval disminueix sent l’estimació més precisa.
En algunes situacions és d’interès determinar la mida mostra crı́tica de manera que s’assoleixi un cert marge
d’error. En el cas de l’estimació per intervals de p observem que:

1. La longitud (aproximada) d’un interval de confiança al 95% per a p seria


r
^q
p ^
long = 2 · 1.96 ·
n

2. Una fita superior d’aquesta longitud ve donada per


s
1
- 12 )
2 (1 1.96
Lmax = 2 · 1.96 · = p
n n
q q 1 1
2 (1- 2 )
Observem que hem substituı̈t p^nq^ pel seu valor màxim i que és n . Aquesta és la situació de
màxim desconeixement que podem entendre com si la població es decidı́s entre les dues opcions que
planteja la distribució Bernoulli equilibradament, de igual manera com si tirem una moneda a l’aire. q En
^q
p ^
cas que disposem d’alguna informació prèvia sobre p, podem utilitzar-la i substituir-la en l’expressió n .

3. El mateix argument que hem aplicat per al 95% serveix per a qualsevol altra confiança, diguem per a
(1 - ↵)% i tenim
z↵
Lmax = p2
n

El problema de trobar la mida crı́tica per l’estimació d’una proporció sense aquestes consideracions (o bé treba-
llar en la situació de màxima incertesa, o bé substituir per alguna informació prèvia) seria en realitat irresoluble.
Com hem indicat, sense cap informació prèvia, ens posarem en la situació de màxim desconeixement sobre p, la
donada per Lmax i resoldrem aquı́ en n: en estar treballant amb una fita superior de la longitud real, el marge
d’error requerit serà satisfet tanmateix.

2.3.1 Exemples - IC per a µ (X qualsevol) i p

Exemple 10. Per a analitzar el coeficient d’intel·ligència d’una certa població estudiantil es va realitzar una prova
a 400 estudiants. En aquest test es va obtenir una puntuació mitjana de 86 punts i una desviació tı́pica de 10.2
punts. Determineu un interval de confiança per a µ al 98%

Iµ = (84.81, 87.19)

7
Exemple 11. En la producció d’una certa màquina es troba que 4 elements en 200 resulten ser defectuosos.
Trobar in IC al 90% per a la proporció de defectuosos fabricats per la màquina.

Ip = (0, 0037, 0, 0363)


Exemple 12. Un metge està interessat en estimar la proporció d’homes que fumen i desenvolupen càncer pulmo-
nar. Quina grandària mostral s’ha de prendre per poder afirmar que, amb una probabilitat del 95% la proporció
mostral no difereixi en més de 0.02 unitats de la poblacional?

1
n 2401 (p · q = )
4

2.4 Sobre la confiança estadı́stica i intervals

Treballarem aquestes idees en base al següent exemple – exercici.


Exemple 13. Al 1976 les eleccions presidencials d’EEUU, en les que es van enfrontar Jimmy Carter i Gerald Ford,
es van guanyar només per un petit marge. Una enquesta realitzada immediatament abans d’aquests comicis va
revelar que el 51% de la mostra tenia la intenció de votar a Carter. L’empresa va anunciar que tenia una certesa
del 95% que aquest resultat (el 51%) estava a menys de 2 punts percentuals del veritable percentatge de votants
a favor de Carter.

1. Utilitzant un llenguatge senzill, explica-li a algú que no sàpiga d’Estadı́stica què vol dir una certesa del
95% en aquest cas.
Ens demanen explicar el concepte de confiança o certesa associat a l’interval de l’enunciat, això és de
(51% - 2%, 51% + 2%) = (49%, 53%) amb una confiança del 95%. La interpretació és la següent: si repetim
l’estimació de l’interval de confiança moltes vegades, en el 95% de les repeticions l’interval de confiança
obtingut inclouria la veritable proporció (que denotarem p) de votants a favor de Carter, i en un 5% de les
vegades no ho faria.
2. L’enquesta mostrava que Carter anava guanyant. Tot i aixı́ l’empresa encarregada de l’estudi va dir que
els resultats eren massa ajustats com per predir qui guanyaria. Explica perquè.
El fet de que un candidat guanyi les eleccions és equivalent a dir que la veritable proporció de votants a
favor d’aquest candidat és superior al 50%. En el nostre cas, l’interval obtingut per p no es troba totalment
inclòs al l’interval, al rang de valors, (50%; 100%], i per tant no es van observar evidències a la mostra a
favor de que Carter guanyaria.
3. Quan va conèixer els resultats, un polı́tic va preguntar nerviós: “Quina és la probabilitat que més de
la meitat dels votants de EEUU prefereixi a Carter?” Un expert en Estadı́stica li va indicar que aquesta
pregunta no es podia respondre a partir dels resultats de l’enquesta i que, de fet, no tenia sentit parlar de
tal probabilitat. Explica perquè.
El polı́tic demana “Quina és la probabilitat que més de la meitat dels votants prefereixi a Carter?” Obser-
vem doncs que la seva pregunta fa referència a la població total d’EEUU (els votants) i no pas als individus
de la present (o una altra) mostra. El valor que vol conèixer el polı́tic és la veritable proporció poblacional:
aquest no és aleatori, és un valor numèric concret que es coneixerà després de la realització dels comicis, i
per tant no porta associada cap distribució de probabilitat.

4. En base als resultats obtinguts en aquest estudi, quina hauria d’haver estat la mida mostral necessària en
una futura enquesta per tal de garantir un error d’estimació de com a molt 1 punt percentual amb una
confiança del 95
Volem determinar una mida mostral de manera que es verifiqui,

8
r
0.51(1 - 0.51)
1.96 ·  0.01 , n 9600, 1584
n
Es necessita, per tant, una mida de, com a mı́nim, 9601 individus per satisfer els requeriments de l’enunciat.

2.5 Funcions rellevants de R


t.test(x, conf.level = 0.95, ...)
Permet obtenir un interval de confiança en base als valors emmagatzemats en x. Podem canviar la confiança
del 95%, que està per defecte, al valor que assignem en conf.level. Si reviseu l’ajut de R veureu que
aquesta comanda té diferents paràmetres... A mesura que avancem en el curs, gran part d’aquests queda-
ran clarificats.
prop.test(x, n, conf.level = 0.95, correct=TRUE)
Permet obtenir un interval de confiança en base a una mostra de n observacions d’una variable binària
en la que s’han observat x èxits. Podem canviar igualment la confiança del 95% al valor que assignem
en conf.level. La darrera instrucció, correct = TRUE és de caràcter tècnic ... Si no l’escrivim, R ens
proporciona un interval de confiança per la proporció tanmateix, però que difereix lleugerament del que
hem aprés a construir en aquest tema.

Exemple 14. Generem 25 valors d’una distribució normal de mitjana 0 i desviació estàndard 5 amb R. Els em-
magatzemarem a un vector anomenat x i posteriorment en demanarem un interval de confiança per a la mitjana
poblacional d’aquesta distribució.
> x = rnorm(25,mean=0,sd=5)
> t.test(x, conf.level=0.95)
L’interval de confiança que has obtingut, conté la mitja poblacional? Recorda la interpretació de la confiança
estadı́stica...

Exemple 15. Preguntem a 1000 persones triades a l’atzar sobre quin jugador de futbol consideren que és més
mediàtic: si Lionel Messi o bé Cristiano Ronaldo. Tothom ha de respondre obligatòriament entre un o altre
jugador i 420 es decanten a favor de Lionel Messi i 580 a favor de Cristiano Ronaldo. Ens demanen decidir si
Messi i Ronaldo poden ser considerats igualment mediàtics: és a dir si la proporció de persones que voten per
Messi és igual a 0.5; observem que, en conseqüència, la de Ronaldo també ho seria...
Construim un interval de confiança amb R al 99% segons,
>prop.test(420,1000,conf.level=0.99, correct=TRUE)
Obtenim com a resultat (0.3799636, 0.4611040). Com 0.5 2 / (0.3799636, 0.4611040) no podem mantenir com a
vàlid que els dos jugadors són considerats igualment mediàtics...

En els següents temes treballarem més a fons sobre aquests tipus de decisions estadı́stiques.

3 Exercicis (llista 2 - pel seminari 3)


1. Es tenen les següents observacions del principi actiu d’un fàrmac que es suposen procedents d’una mostra
aleatòria simple d’una població normal de desviació estàndard 0.1.

2.24; 2.01; 2.02; 1.83; 1.88; 1.9; 2.07; 2.12; 2.23; 2.02

(a) Determinar un interval de confiança al 95% per la mitjana del principi actiu en el fàrmac

You might also like