Professional Documents
Culture Documents
Tema 4 Introducion A Inferencia Estatistica
Tema 4 Introducion A Inferencia Estatistica
estatística
Ciencias do Mar
2/123
Exemplo
Imaxinemos que queremos estudar a intención de voto nas próximas eleccións. En particular gustaríanos
saber cal será a proporción de votantes do Partido Estatístico (PE).
Mundo real (non observable): A poboación está formada por 100 persoas, numeradas de 1 a 100, e as
súas preferencias electorais son as que figuran na táboa seguinte: 1 significa “votante do PE” e 0 significa
“non votante do PE”. A proporción real (descoñecida para nós) de votantes do PE é p = 0.3 (nos 100, hai
30 votantes do PE).
1 0 21 0 41 1 61 0 81 0
2 0 22 0 42 1 62 0 82 0
3 0 23 0 43 1 63 0 83 1
4 1 24 1 44 1 64 1 84 0
5 0 25 0 45 0 65 0 85 0
6 0 26 0 46 0 66 1 86 0
7 0 27 0 47 0 67 0 87 0
8 0 28 0 48 0 68 0 88 0
9 0 29 1 49 1 69 0 89 0
10 1 30 1 50 0 70 0 90 1
11 0 31 0 51 0 71 1 91 0
12 0 32 0 52 0 72 0 92 1
13 0 33 0 53 0 73 1 93 0
14 1 34 0 54 0 74 0 94 0
15 0 35 0 55 1 75 0 95 1
16 1 36 0 56 1 76 0 96 1
17 1 37 0 57 1 77 0 97 0
18 0 38 0 58 0 78 1 98 0
19 0 39 1 59 0 79 0 99 0
20 0 40 1 60 1 80 0 100 1
3/123
Exemplo (cont.)
· Neste caso, só nos interesa a intención electoral de cada persoa. Así, podemos identificar a nosa variable
aleatoria de interese, X = “Votar ao PE”, como unha variable de Bernoulli:
· A proporción (ou probabilidade) de votantes do PE, p, é o parámetro descoñecido sobre o que faremos
inferencia.
· Dado que, por diversas razóns énos imposible entrevistar a todos os individuos da poboación, o lóxico
será que seleccionemos uns poucos (a nosa mostra) e, a partir deses datos, tratemos de sacar
conclusións sobre o parámetro p.
· No noso caso o método de mostraxe consiste simplemente en sortear (elixir ao azar) 20 números do 1
ao 100, e elixir aos individuos que se corresponden con eses números como os individuos da mostra.
4/123
Exemplo (cont.)
Realizamos o sorteo e extraemos ós 20 individuos (mostra). Por exemplo, os individuos seleccionados son
os que se corresponden cos números 31, 79, 51, 14, 67, etc. Os datos son os ceros e os uns asociados a
eses individuos. Con eses datos para dar un valor (aproximado) para p (unha estimación), parece lóxico
considerar a proporción de 1’s na mostra (frecuencia relativa).
Estimación 1
Mostra 1
31 0 42 1 90 1 92 1 Nº votantes do PE na mostra 7
79 0 50 0 91 0 9 0 p̂1 = = = 0.35.
51 0 43 1 69 0 93 0 Tamaño mostral 20
14 1 14 1 91 0 99 0
67 0 25 0 57 1 72 0
5/123
Exemplo (cont.)
Realizamos o sorteo e extraemos ós 20 individuos (mostra). Por exemplo, os individuos seleccionados son
os que se corresponden cos números 31, 79, 51, 14, 67, etc. Os datos son os ceros e os uns asociados a
eses individuos. Con eses datos para dar un valor (aproximado) para p (unha estimación), parece lóxico
considerar a proporción de 1’s na mostra (frecuencia relativa).
Estimación 1
Mostra 1
31 0 42 1 90 1 92 1 Nº votantes do PE na mostra 7
79 0 50 0 91 0 9 0 p̂1 = = = 0.35.
51 0 43 1 69 0 93 0 Tamaño mostral 20
14 1 14 1 91 0 99 0
67 0 25 0 57 1 72 0
6/123
Exemplo (cont.)
Realizamos o sorteo e extraemos ós 20 individuos (mostra). Por exemplo, os individuos seleccionados son
os que se corresponden cos números 31, 79, 51, 14, 67, etc. Os datos son os ceros e os uns asociados a
eses individuos. Con eses datos para dar un valor (aproximado) para p (unha estimación), parece lóxico
considerar a proporción de 1’s na mostra (frecuencia relativa).
Estimación 1
Mostra 1
31 0 42 1 90 1 92 1 Nº votantes do PE na mostra 7
79 0 50 0 91 0 9 0 p̂1 = = = 0.35.
51 0 43 1 69 0 93 0 Tamaño mostral 20
14 1 14 1 91 0 99 0
67 0 25 0 57 1 72 0
0.05 6 0.006
0.1 39 0.039
0.15 65 0.065
0.45 63 0.063
0.5 36 0.036
0.55 17 0.017
0.6 1 0.001
8/123
Exemplo (cont.)
· Neste caso a “poboación” está formada por tódalas posibles mostras (de tamaño N = 20) que podemos
extraer da nosa poboacion inicial de interese. Cada mostra concreta (de tamaño N ) será un “individuo”
desa poboación (de mostras).
· Dado que p̂ é unha variable aleatoria, podemos analizala dende o punto de vista teórico. É fácil
comprobar que p̂ é unha variable aleatoria discreta con masa de probabilidade
20 ) ( n )
n 20 n
P (p̂ = = p (1 − p)20−n
con n = 0, 1, … , 20.
Ademais
‾p(1
‾‾‾‾‾‾‾
− p)‾
√ 20
E(p̂) = p e DT(p̂) = .
( ) ( )
n 20 n n 80 n
P (p̂20 = ) = p (1 − p)20−n
, P (p̂80 = ) = p (1 − p)80−n
,
20 n 80 n
‾p(1
‾‾‾‾‾‾‾
− p)‾ ‾p(1
‾‾‾‾‾‾‾
− p)‾
√ 20 √ 80
E(p̂20 ) = p e DT(p̂20 ) = . E(p̂80 ) = p e DT(p̂80 ) = .
10/123
Métodos de mostraxe
O procedemento mediante o que se obtén a mostra denomínase método de mostraxe. Existen moitos
métodos de mostraxe distintos. Neste curso centrarémonos na chamada mostraxe aleatoria simple.
Outros métodos
Mostraxe estratificada, mostraxe por conglomerados, etc.
11/123
Tipos de Inferencia
Supoñamos que temos unha variable aleatoria de interese X e que queremos facer inferencia (gañar
coñecemento) sobre un parámetro θ (media: μ, varianza: σ, proporción ou porcentaxe: p, etc) a partir
dunha mostra. Con ese obxectivo, a inferencia estatística emprega os seguintes tres procedementos
Estimación puntual
No caso da estimación puntual, o obxectivo é obter un valor numérico único para o parámetro
poboacional descoñecido θ.
Intervalos de confianza
Os intervalos de confianza van un paso máis alá, e, en lugar de proporcionar un valor numérico único,
proporcionan todo un rango de posibles valores para o parámetro poboacional descoñecido θ.
Contrastes de hipóteses
Finalmente, os contrastes de hipóteses teñen como obxectivo corroborar ou invalidar unha determinada
afirmación acerca do parámetro poboacional descoñecido θ.
Nesta situación, parece lóxico que o valor numérico que se proporcione sexa unha función da mostra.
Estatístico
Recebe o nome de estatístico calquera función T da mostra aleatoria
T = T(X1 , X2 , … , XN ).
Como a mostra está formada por variables aleatorias, o estatístico tamén é unha variable aleatoria. A súa
distribución (función de distribución, masa de probabilidade ou función de densidade, segundo
corresponda) chámase distribución na mostraxe de T .
Exemplos de estatísticos
· Media mostral
∑Ni=1 Xi
T(X1 , X2 , … , XN ) = X̄ =
N
· Proporción mostral
nPE ∑Ni=1 Xi
T(X1 , X2 , … , XN ) = = 14/123
N N
Estimación puntual
Por tanto, o xeito de proceder para obter unha estimación puntual de θ (parámetro poboacional de
interese) é sumamente sinxelo. Consiste en:
· Paso 1: seleccionar un estatístico T para ese parámetro. Neste caso, o estatístico tamén recebe o nome
de estimador porque serve para dar un valor estimado do parámetro. Normalmente un estimador do
parámetro θ denotarase por θ.̂
· Paso 2: proporcionar como estimación puntual de θ o valor de θ ̂ calculado a partir da mostra concreta
coa que contamos.
Un estimador é unha regra xeral de cálculo (que poderemos aplicar a todas as m.a.s), mentres que unha
estimación é o resultado de aplicar dita regra a unha mostra concreta.
No exemplo dos pingüíns empregado no Tema 2, a variable de interese pode ser o bill_depth_mm e
o parámetro poboacional de interese a súa media, μ (é dicir, estamos interesados na profundidade
media do pico dos pingüíns do arquipélago de Palmer). Un estimador natural para a media
poboacional μ é a media mostral
∑Ni=1 Xi
μ̂ = X̄ = .
N
que nos datos concretos cos que contamos toma o valor (estimación puntual)
x̄ = 17.165 mm.
15/123
Estimación puntual
Agora ben
Parece claro que un estimador θ ̂ para un parámetro θ será bo se as estimacións que proporciona están
“cerca” de θ.
16/123
Estimación puntual
Como vimos antes, todo estimador é unha variable aleatoria ⟹ podemos estudar o seu
comportamento teórico.
Aínda que non o indicamos explicitamente nas expresións que empregamos ata o de agora, o estimador θ̂
depende” do tamaño mostral (pensade na media mostral, o valor de N aparece na expresión).
̂ para indicar a “dependencia” de N
Empregaremos nas seguintes definicións notación θN
Innesgadez
̂ do parámetro θ é innesgado se
· Diremos que un estimador θN
E(θN̂ ) = θ.
17/123
Estimación puntual
¿Pero, é suficiente que un estimador sexa innesgado para que se converta no mellor estimador de
θ?
18/123
Estimación puntual
Consistencia
Diremos que un estimador é consistente cando:
lim Var(θN̂ ) = 0.
N→∞
Erro estándar
O erro estándar dun estimador é a súa desviación típica
ES(θN̂ ) = √‾‾‾‾‾‾‾
Var( θN̂ ‾).
19/123
Estimación puntual
Estimadores notables
· Temos unha variable aleatoria X da cal descoñecemos (algún) dos parámetros que caracterizan a súa
distribución (media, varianza, etc.).
· O noso obxectivo é aproximar (estimar) ese parámetro a través da información proporcionada por unha
mostra (aleatoria simple) de tamaño N de X (X1 , X2 , …, XN ).
· Para elo, empregaremos estimadores quen cumpran as propiedades que acabamos de estudar
(innesgadez e consistencia).
- Estimación da media poboacional de X , que denotamos por μ = E(X). O estimador adecuado neste
caso é a media mostral.
20/123
Estimación puntual
Estimadores notables
N
Xi
∑ N
μ̂ = X̄ = .
i=1
· É innesgado
( i=1 N ) i=1 N
N N N
Xi E(Xi ) μ Nμ
∑ ∑ ∑
E(X̄ ) = E = = = = μ.
i=1
N μ
( N)
N
Xi ∑Ni=1 Var(Xi ) Nσ 2 σ2
∑
Var(X̄ ) = Var = 2
= = →N→∞ 0. 21/123
N N N
Estimación puntual
Estimadores notables
Para crear a figura, xeráronse, mediante simulación, 1000 mostras con N = 10 observacións cada unha, 1000 máis con N = 20
observacións, e así sucesivamente ata un tamaño de mostra de N = 1000. En todos os casos, asumiuse que X ∼ Poisson(1). Para cada
mostra, calculouse a media mostral. A gráfica amosa o diagrama de caixas paras esas medias mostrais separadamente para cada tamaño
mostral. A liña de cor amosa a media poboacional (1).
22/123
Estimación puntual
Estimadores notables
· No caso particular no que X ten unha distribución normal, é dicir X ∼ N(μ, σ 2 ), entón
( √N )
σ
X̄ ∼ N μ, ,
‾‾
ou equivalentemente
X̄ − μ
σ ∼ N(0, 1).
√N
23/123
Estimación puntual
Estimadores notables
X̄ − μ
( √N ‾‾ )
σ
X̄ aprox. N μ, , ou equivalentemente σ aprox. N(0, 1).
√N
σ
En ambos os dous casos, o erro estándar do estimador é ES(X̄ ) = .
√N
24/123
Estimación puntual
Estimadores notables
Para crear a figura, xeráronse, mediante simulación, 1000 mostras con N = 100 observacións cada unha asumindo que X ∼ Poisson(1), e
1000 máis con N = 30 observacións pero asumindo que X ∼ N(1, 1). Para cada mostra, calculouse a media mostral. A gráfica amosa o
1
histograma para esas medias mostrais separadamente para cada distribución. A liña de cor é a densidade asociada a unha N(1, ).
√30
25/123
Estimación puntual
Estimadores notables
Para crear a figura, xeráronse, mediante simulación, 1000 mostras con N = 30 observacións cada, e 1000 mostras máis con N = 100
observacións. En ambos os dous casos asumiuse que X ∼ N(1, 1). Para cada mostra, calculouse a media mostral. A gráfica amosa o
1
histograma para esas medias mostrais separadamente para cada distribución. A liña de cor é a densidade asociada a unha N(1, )
√30
1
(esquerda) e unha N(1, ) (dereita).
√100
26/123
Estimación puntual
Estimadores notables
2 ‾N‾‾‾‾‾‾‾‾‾‾‾‾2‾
(Xi − X̄ ) (Xi − X̄ )
N
∑ N−1 ∑ N−1
σ̂ = S =
2 2
e σ̂ = S = .
i=1 ⎷ i=1
· Son innesgado
· Son consistentes
27/123
Estimación puntual
Estimadores notables
Para crear a figura, xeráronse, mediante simulación, 1000 mostras con N = 10 observacións cada unha, 1000 máis con N = 20
observacións, e así sucesivamente ata un tamaño de mostra de N = 1000. En todos os casos, asumiuse que X ∼ Poisson(1). Para cada
mostra, calculouse a varianza mostral. A gráfica amosa o diagrama de caixas paras esas varianzas mostrais separadamente para cada
tamaño mostral. A liña de cor amosa a varianza poboacional (12 ).
28/123
Estimación puntual
Estimadores notables
· No caso particular no que X ten unha distribución normal, é dicir X ∼ N(μ, σ 2 ), entón
(N − 1)S 2
2
∼ χN−1
2 ,
σ
2
onde χN−1 denota unha distribución chi-cadrado de Pearson con N − 1 graos de liberdade.
29/123
Estimación puntual
Estimadores notables
Para crear a figura, xeráronse, mediante simulación, 1000 mostras con N = 30 observacións cada unha e asumiuse que X ∼ N(1, 1). Para
2
cada mostra, calculouse a varianza mostral, multiplicouse ese valor por (30-1) e dividiuse por σ 2 = 1 . A gráfica amosa o histograma para
eses valores. A liña de cor é a densidade asociada a unha χ30−1 .
30/123
Estimación puntual
Estimadores notables
31/123
Estimación puntual
Estimadores notables
Para crear a figura, xeráronse, mediante simulación, 1000 mostras con N = 10 observacións cada unha, 1000 máis con N = 20
observacións, e así sucesivamente ata un tamaño de mostra de N = 1000. En todos os casos, asumiuse que X ∼ Bernoulli(0.2) . Para
cada mostra, calculouse a proporción de 1’s na mostra. A gráfica amosa o diagrama de caixas paras esas proporcións separadamente para
cada tamaño mostral. A liña de cor amosa a proporción poboacional (p = 0.2).
32/123
Estimación puntual
Estimadores notables
· Facendo uso, de novo, do Teorema Central do Límite podemos aproximar a distribución na mostraxe de
p̂ por unha distribución Normal
‾p(1
‾‾‾‾‾‾‾
− p)‾
( √ )
p̂ aprox. N p, ,
N
ou equivalentemente
p̂ − p
aprox. N(0, 1).
‾‾‾‾‾‾
√ N
p(1−p)
· Para que a aproximación sexa boa necesitaremos un tamaño mostral suficientemente grande. En xeral
N > 40 é suficiente xunto con N p̂ > 10 e N(1 − p̂) > 10.
33/123
Estimación puntual
Estimadores notables
Para crear a figura, xeráronse, mediante simulación, 1000 mostras con N = 100 observacións cada unha, e 1000 máis con N = 200
observacións. En ambos os dous casos asumiuse que X ∼ Bernoulli(0.2). Para cada mostra, calculouse a proporción de 1’s na mostra. A
‾‾‾‾‾‾‾‾
(0.2, √ 100 ) (esquerda) e a unha
0.2(1−0.2)
gráfica amosa o histograma para esas proporcións. A liña de cor é a densidade asociada a unha N
34/123
Intervalos de confianza
Intervalos de confianza
· Ata este momento, describimos os fundamentos da teoría da mostraxe que é a base para facer
conxecturas (inferencias) sobre os parámetros da poboación a partir dunha mostra de datos.
· Unha das razóns polas que necesitamos toda esta teoría da mostraxe é que cada conxunto de datos
(mostra) déixanos con incertezas: as nosas estimacións nunca van ser perfectamente precisas.
· O que faltou ata o de agora é un intento de cuantificar canta incerteza acompaña á nosa estimación:
- Por exemplo, pode non bastar con dicir que a porcentaxe estimada de persoas que van a votar ao PE
é do 28.5%.
- Tamén queremos ser capaces de dicir algo que exprese o grao de certeza que temos nesa
conxetura.
- ¿Non sería bo poder dicir que a porcentaxe real está entre o 26.5% e 30.5% cunha confianza do,
digamos digamos, 95%? O nome para isto é intervalo de confianza: xa non dou un único valor
(estimación puntual) se non todo un rango de posibles valores.
- Obviamente, canto menor sexa o intervalo, mellor (menos incerteza). Non é o mesmo dicir que a
porcentaxe real de voto está entre o 10% e o 47%, que dicir que está entre o 26.5% e o 30.5%.
36/123
Intervalos de confianza
Definición
Intervalo de confianza
Sexa X a variable aleatoria e sexa θ o parámetro poboacional sobre o que queremos facer inferencia (gañar
coñecemento). Sexa X1 , X2 ,…, XN , unha m.a.s. de X . Denomínase intervalo de confianza (IC) para θ con
nivel de confianza 1 − α (α ∈ [0, 1]) a un intervalo aleatorio (T1 , T2 ) de forma que
P (T1 ≤ θ ≤ T2 ) = 1 − α,
onde T1 = T1 (X1 , … , XN ) e T2 = T2 (X1 , … , XN ) son dous estatísticos que se calculan a partir da
mostra.
Moitas veces o nivel de confianza dase nunha escala de 0 a 100 (porcentaxe). Por exemplo,
falaremos dun nivel de confianza do 95%, que é equivalente a dicir que 1 − α = 0.95.
37/123
Intervalos de confianza
Interpretación
· A figura mostra os intervalos de confianza do 95% para a proporción real de votantes ao PE ( p = 0.3)
obtidos para 100 mostras diferentes de tamaño N = 40.
· En 92 das 100 mostras (92%) o intervalo obtido contén á verdadeira proporción de votantes ao PE.
38/123
Intervalos de confianza
Interpretación
· Na “poboación” das mostras de tamaño N = 40, o 95% dos intervalos de confianza obtidos a partir
delas van conter á verdadeira proporción de votantes ao PE.
· Na práctica, eu vou ter unha mostra concreta e un intervalo concreto ⟹ o intervalo contén ou non á
verdadeira proporción (non hai aleatoriedade!).
· Dado que elixín un nivel de confianza ao 95% ⟹ eu confío, cunha confianza do 95%, que a miña
mostra é unha das que da lugar a un intervalo de confianza que si contén á verdadeira proporción .
39/123
Intervalos de confianza
Nivel de confianza
40/123
Intervalos de confianza
Tamaño mostral
41/123
Intervalos de confianza
Exemplo
Sábese que o peso (en kg) que alcanzan as robalizas dunha planta de acuicultura alimentadas
cun penso experimental é unha variable aleatoria que segue una distribución N(μ, 0.3), e μ, o
peso medio que alcanzan as robalizas, é decoñecido. Deséxase estimar μ. Para isto
selecciónanse ao azar 16 robalizas e recóllese o seu peso, sendo os datos obtidos os seguintes
## [1] 0.85375 0.95375 1.49375 1.04375 1.06375 1.53375 1.16375 0.64375 0.81375
## [10] 0.89375 1.39375 1.13375 1.14375 1.05375 0.85375 1.56375
42/123
Intervalos de confianza
Construción
· Para ilustrar os pasos para a construción dun intervalo de confianza empregaremos un dos casos máis
sinxelos.
- A media poboacional μ é o parámetro sobre o que queremos facer inferencia (descoñecido para
nós).
- Como vimos na parte de estimación puntual o estimador natural (e con boas propiedades) para μ é a
media mostral e sabemos cal é a súa distribución na mostraxe
N
( √N )
Xi σ
∑ N
μ̂ = X̄ = ∼ N μ, .
i=1
‾‾
43/123
Intervalos de confianza
Construción
1. O primeiro paso será fixar o nivel de confianza, digamos 1 − α = 0.95 (por tanto, α = 0.05).
2. O seguinte paso será buscar para X̄ (o noso estimador) dous valores a e b, tal que:
P(a ≤ X̄ ≤ b) = 0.95.
Existen infinitos pares de valores que verifican esa propiedade, pero ímonos quedar cos dous valores
que fan o intervalo de lonxitude mínima (que é algo que nos interesa). Neste caso, pódese ver que eses
valores son a = μ − 1.96 σ e b = μ + 1.96 σ . Notade que 1.96 é o cuantil de orde 0.975
√N √N
(= 1 − α/2) dunha distribución N(0, 1).
44/123
Intervalos de confianza
Construción
3. O último paso será reorganizar para que μ (o parámetro descoñecido) quede no medio. Neste caso pode
verse que
( ‾‾ )
σ σ
0.95 = P μ − 1.96 ≤ X̄ ≤ μ + 1.96
√N‾‾ √N
( )
σ σ
= P X̄ − 1.96 ≤ μ ≤ X̄ + 1.96 .
√N‾‾ √N‾‾
Por tanto, neste caso o intervalo de confianza para μ cun nivel de confianza do 0.95 é
( ‾‾ )
σ σ
X̄ − 1.96 , X̄ + 1.96
√N‾‾ √N
De xeito xeral, o intervalo de confianza para μ cun nivel de confianza de 1 − αé
( ‾‾ )
σ σ
X̄ − z1−α/2 , X̄ + z1−α/2
√N‾‾ √N
onde zp é o cuantil de orde p dunha N(0, 1).
45/123
Intervalos de confianza
Exercicio
Sábese que o peso (en kg) que alcanzan as robalizas dunha planta de acuicultura alimentadas
cun penso experimental é unha variable aleatoria que segue una distribución N(μ, 0.3), e μ, o
peso medio que alcanzan as robalizas, é decoñecido. Deséxase estimar μ. Para isto
selecciónanse ao azar 16 robalizas, obténdose un peso medio mostral x̄ = 1.1 kg.
· O intervalo confianza para o peso medio poboacional μ con nivel de confianza 0.95
(α = 0.05)
· O intervalo confianza para o peso medio poboacional μ con nivel de confianza 0.90
(α = 0.10)
· O intervalo confianza para o peso medio poboacional μ con nivel de confianza 0.99
(α = 0.01)
46/123
Intervalos de confianza
Exercicio (solución)
( ‾‾ )
σ σ
X̄ − z1−α/2 , X̄ + z1−α/2
√N‾‾ √N
· O intervalo confianza para o peso medio poboacional μ con nivel de confianza 0.95
(α = 0.05) é:
( )
0.3 0.3
1.1 − 1.96 , 1.1 + 1.96 = (0.953, 1.247) .
‾‾
‾
√16 ‾‾
‾
√16
· O intervalo confianza para o peso medio poboacional μ con nivel de confianza 0.90
(α = 0.10) é:
( )
0.3 0.3
1.1 − 1.64 , 1.1 + 1.64 = (0.977, 1.223) .
√‾‾
‾
16 √‾‾
‾
16
· O intervalo confianza para o peso medio poboacional μ con nivel de confianza 0.99
(α = 0.01) é:
( )
0.3 0.3
1.1 − 2.58 , 1.1 + 2.58 = (0.9065, 1.2935) .
‾‾
‾
√16 ‾‾
‾
√16
47/123
Observade que a lonxitude do intervalo de confianza aumenta ao aumentar o nivel de confiaza
Intervalos de confianza
Intervalos notables
( )
σ σ
I Cμ = X̄ − z1−α/2 , X̄ + z1−α/2 ,
√‾‾
N √‾‾
N
48/123
Intervalos de confianza
Intervalos notables
- Ese “cambio” modificará tamén o cuantil que empreguemos que xa non será o dunha distribución
N(0, 1) senón o dunha distribución t de Student con N − 1 graos de liberdade.
- O intervalo de confianza para μ con nivel de confianza 1 − αé
( )
S S
I Cμ = X̄ − tN−1,1−α/2 , X̄ + tN−1,1−α/2 ,
‾‾
√N ‾‾
√N
onde tN−1,p é o cuantil de orde p dunha distribución t de Student con N − 1 graos de liberdade.
49/123
Intervalos de confianza
Intervalos notables
50/123
Intervalos de confianza
Intervalos notables
## [1] 5.09 2.65 2.49 3.46 8.17 5.09 6.12 8.72 5.80 2.33 1.09 0.84 3.14 5.83 5.55
## [16] 3.39 1.66 5.30 6.91
51/123
Intervalos de confianza
Intervalos notables
( )
S S
X̄ − tN−1,1−α/2 , X̄ + tN−1,1−α/2 =
√N‾‾ √N‾‾
( )
2.3 2.3
4.4 − t18,0.975 , 4.4 + t18,0.975 =
√ ‾‾
‾
19 √ ‾‾
‾
19
( )
2.3 2.3
4.4 − 2.10 , 4.4 + 2.10 = (3.291, 5.508) .
‾‾
√19‾ ‾‾
√19‾
52/123
Intervalos de confianza
Intervalos notables
Por tanto, os intervalos de confianza que obteremos son aproximados e necesitaremos un tamaño mostral
suficientemente grande. En xeral N > 40 é suficiente xunto con N p̂ > 10 e N(1 − p̂) > 10.
‾p‾‾‾‾‾‾‾
̂(1 − p̂)‾ ‾p‾‾‾‾‾‾‾
̂(1 − p̂)‾
( √ √ N )
ICAp = p̂ − z1−α/2 , p̂ + z1−α/2 ,
N
53/123
Intervalos de confianza
Exemplo
Antes de facer o seguinte exercicio, vexamos o seguinte vídeo
https://www.youtube.com/watch?
v=vJG698U2Mvo
54/123
Intervalos de confianza
Exercicio
· Todos cremos que vemos a maior parte do que ocorre ao noso ao redor, polo menos as
cousas máis obvias. Con todo, recentemente psicólogos identificaron un fenómeno chamado
“mirada selectiva”, que significa que, se a nosa atención céntrase nun aspecto do que vemos,
mesmo podemos pasar por alto cousas aparentemente obvias presentadas ao mesmo tempo.
· Nunha sorprendente demostración deste fenómeno, mostrouse o vídeo anterior a unha serie
de estudantes elixidos ao azar. Dos 120 alumnes que viron o vídeo, 50 decatáronse da
presenza do gorila.
55/123
Intervalos de confianza
Exercicio (solución)
56/123
Estimación puntual e intervalos de confianza
Caso práctico
No ano 2013, a Penn Research Foundation plantexouse estudar a proporción de estadounidenses adultos
con unha ou máis enfermidades crónicas (tensión alta, problemas pulmonares, diabetes, enfermidade
coronaria, ou cancro). Para elo, realizou unha enquisa a 3014 estadounidenses adultos, dos cales o 45%
reportou ter unha ou máis enfermidades crónicas.
· Se quixésemos dar unha estimación puntual dese parámetro ¿Que valor dariamos?
· Se en lugar de dar un único valor, quixésemos dar todo un posible rango de valores ¿Que
empregaríamos?
· Se quixésemos calcular o intervalo de confianza ¿Que deberíamos verificar antes de poder construílo?
· Calcular o intervalo de confianza ao 95% para para a porcentaxe de estadounidenses adultos que teñen
unha ou máis enfermidades crónicas.
57/123
Estimación puntual e intervalos de confianza
Caso práctico (cont.)
· Indicar se as seguintes “afirmacións” son verdadeiras ou falsas:
- Podemos dicir, con total certeza, que o intervalo de confianza calculado anteriormente contén á
verdadeira proporción de estadounidenses adultos que teñen unha ou máis enfermidades crónicas.
- Se quixésemos reducir a lonxitude do intervalo de confianza (dar unha estimación máis precisa da
verdadeira proporción), entón teríamos que facerlle a enquisa a menos persoas.
- Se agora construímos o intervalo de confianza ao 90%, ese intervalo será máis longo que o intervalo
de confianza ao 95%.
58/123
Contrastes de hipóteses
Contrastes de hipóteses
· Ata o de agora expuxemos as ideas que subxacen á estimación (tanto puntual como por intervalos de
confianza), que é unha das dúas “grandes ideas” da inferencia estatística.
· Agora é o momento de prestar atención á outra gran idea, que é a comprobación (ou contraste) de
hipóteses.
· Na súa forma máis abstracta, un contraste de hipóteses é unha idea moi simple: temos unha teoría
sobre o mundo, e queremos determinar se os datos que temos (mostra) apoian esa teoría ou polo
contrario proporcionan evidencia de que é falsa.
· En termos estatísticos o que imos ter é unha hipótese (afirmación) sobre unha variable aleatoria de
interese (ou algún dos seus parámetros) e o que necesitamos é un procedemento que nos permita
decidir ata que punto os datos que temos (mostra) corroboran ou non esa hipótese.
60/123
Contrastes de hipóteses
Exemplo
· Volvemos ao exemplo do principio deste tema no que estabamos interesadas en estudar a intención de
voto ao Partido Estatístico (PE) nas próximas eleccións.
· En particular, agora o noso interese céntrase en determinar se a intención de voto ao Partido Estatístico
(PE) nas próximas eleccións mantense con respecto ás anteriores eleccións ou polo contrario hai
cambios (a proporción de votantes a día de hoxe é maior ou menor do 50%).
· Así, hai dúas posibilidades, dúas hipóteses a contrastar, que, no contexto do exemplo, podemos
especificar como:
Hipótese nula H0 : p = 0.5 (non hai cambios con respecto ás anteriores eleccións)
Hipótese alternativa H1 : p ≠ 0.5 (sí hai cambios)
· A cuestión é ¿como podo decidir cal das dúas é a correcta?.
61/123
Contrastes de hipóteses
Exemplo
· Decido que, para tomar a decisión, procederei do seguinte xeito: 1) escollerei a 10 individuos aos azar (o
presuposto non me permite coller a máis); 2) recollerei a súa intención de voto ( X1 , … , X10 ), e 3)
calcularei a frecuencia de votantes ao PE.
· Como algo de probabilidade xa sei, coñezo a función de masa de probabilidade da variable aleatoria
∑10
i=1 Xi
p̂ = ,
10
no caso no que a intención de voto ao PE sexa do 50% (p = 0.5).
62/123
Contrastes de hipóteses
Exemplo
Finalmente escollo aos 10 individuos, e resulta que 5 deles teñen intención de votar ao PE ( p̂ = 5
10
) ¿Que
decisión tomo?
63/123
Contrastes de hipóteses
Exemplo
Finalmente escollo aos 10 individuos, e resulta que 5 deles teñen intención de votar ao PE ( p̂ = 5
10
) ¿Que
decisión tomo?
· Ese resultado parece consistente con que a intención de voto ao PE sexa do 50% (se o é, ocorrerá o
24.6% das veces).
· Por tanto, dado que os datos non parece que aporten evidencia de que a intención de voto ao PE sexa
diferente do 50%, reteño a hipótese nula (p = 0.5) ⟹ NON teño evidencia de que haxa cambios con
respecto ás anteriores eleccións.
64/123
Contrastes de hipóteses
Exemplo
¿Que pasa se nos 10 individuos que escollín os 10 teñen intención de votar ao PE ( p̂ = 1)? ¿Que decisión
tomo?
65/123
Contrastes de hipóteses
Exemplo
¿Que pasa se nos 10 individuos que escollín os 10 teñen intención de votar ao PE ( p̂ = 1)? ¿Que decisión
tomo?
O certo é que ese é un resultado posible mesmo que que a intención de voto ao PE sexa do 50% (sabemos
que ocorrerá o 0.1% das veces).
· Así, podo pensar que aínda que é moi pouco probable é posible e polo tanto sigo retendo a hipótese
nula (p = 0.5) ⟹ NON teño evidencia de que haxa cambios con respecto ás anteriores eleccións.
· Alternativamente, podo pensar que é un resultado moi improbable como para ter ocorrido por “azar”,
e argumentar que sería un resultado probable se efectivamente a intención de voto ao PE é maior do
50%.
- Se emprego este último argumento, a decisión que tomarei será rexeitar a hipótese nula, xa que o
resultado suxire que é falsa (p ≠ 0.5) ⟹ SI teño evidencia de que hai cambios con respecto ás
anteriores eleccións.
66/123
Contrastes de hipóteses
Exemplo
Así, podemos pensar nunha regra de decisión como a seguinte:
67/123
Contrastes de hipóteses
Conceptos principais
· Un contraste de hipóteses é un criterio ou regra de decisión para decidir entre dúas hipóteses
complementarias en base á información proporcionada por unha mostra.
· Por tanto, antes de realizar un contraste, será necesario especificar dúas hipóteses:
68/123
Contrastes de hipóteses
Conceptos principais
· Obviamente, o ideal sería ter un criterio de decisión que nunca cometa erros. É dicir, sexa cal sexa a
mostra concreta (datos) que eu teña, sempre tome a decisión correcta entre as dúas hipóteses que estou
a contrastar (decida correctamente cal delas é certa).
· Así, segundo H0 sexa certa ou falsa (neste último caso H1 será certa) o criterio de decisión elixido dará
lugar a dous tipos de decisións correctas e a dous tipos de erros.
Decisión
Reter H0 Rexeitar H0
69/123
Contrastes de hipóteses
Conceptos principais
Como vemos, temos dous tipos de erros diferentes, para os que podemos definir a probabilidade de
cometelos:
· Erro de tipo I: cometemos un erro de tipo I se rexeitamos a hipótese nula cando é realmente certa. A
probabilidade de cometer dito erro chámase nivel de significación do contraste e denótase por α
70/123
Contrastes de hipóteses
Conceptos principais
· Potencia: a potencia dun contraste é a probabilidade de rexeitar H0 cando é falsa, e denótase por π:
71/123
Contrastes de hipóteses
Conceptos principais
· Obviamente, a situación ideal cando realizamos un contraste de hipóteses é que as dúas probabilidades
de erro, α e β sexan cero ⟹ esa situación non é posible.
· Sendo menos ambiciosos, o noso obxectivo será, por tanto, que α e β sexan o máis pequenos posibles.
· Desafortunadamente isto non sempre é posible: se intentamos dimuír a probabilidade dun tipo de erro
(cambiando o criterio a empregar para tomar a decisión), entón aumentará a probabilidade de cometer o
erro do outro tipo ⟹ é preciso tomar unha decisión.
· Noutras palabras, non hai un comportamento imparcial con respecto ás dúas hipóteses que se
están a considerar (H0 e H1 ). Non se trata de decidir cal das dúas hipóteses é máis verosímil á
vista dos datos, senon se os datos proporcionan evidencia suficiente para rexeitar a hipótese
nula H0 ⟹ eu teño moita “confianza” na miña hipótese nula, e só estou disposta a rexeitala no
caso no que os datos me proporcionen “razóns suficientes” para facelo.
72/123
Contrastes de hipóteses
Conceptos principais
· Un xeito de pensar nisto é imaxinar que un contrates de hipóteses é un xuízo.
- Hipótese nula: o acusado é inocente (en todo xuízo existe a presunción de inocencia)
- Veredicto: Decisión
73/123
Contrastes de hipóteses
Conceptos principais
· Como acabamos de ver, a maior preocupación nun contraste de hipóteses radica no erro de tipo I
⟹ o obxectivo é garantir que sexa moi infrecuente rexeitar H0 cando sexa certa, pero non preocupa
tanto o feito de retela cando sexa falsa (erro de tipo II).
· Así, nun contraste de hipóteses, vaise establecer de antemán a probabilidade de cometer o erro de
tipo I, ou nivel de significación α. É habitual traballar con α = 0.05.
⟹ estamos a asegurar que, como máximo, rexeitaremos a hipótese H0 sendo esta certa para o 5%
mostras que podemos obter. En termos da analoxía inocente-culpable, asegurámonos que no caso de
persoas inocentes, enviaremos ao cárcere, como máximo, ao 5%.
⟹ Canto menor sexa dito nivel, menos disposto estarei a rexeitar a hipótese nula no caso de que sexa
certa, mesmo que iso signifique que estou disposto a retela máis veces das “debidas” no caso de ser
falsa.
74/123
Contrastes de hipóteses
Conceptos principais
· Se o resultado dun contraste é reter a hipótese nula, H0 , debe interpretarse como que os datos
non aportaron evidencia suficiente como para descartala. Non falaremos, por tanto, de que
aceitamos H0 se non de que non a rexeitamos.
· Se, polo contrario, o resultado dun contraste é rexeitar a hipótese nula, H0 , é porque se está
razoablemente seguro de que H0 é falsa, e por tanto H1 é verdadeira.
· A estratexia en moitos casos será establecer como hipótese alternativa (H1 ) a que realmente
queremos validar. Se o contraste sae a rexeitar, podemos estar razoablemente seguros de que a
nosa hipótese é certa.
75/123
Contraste de hipóteses
Caso práctico
Seguridade alimentaria
Un inspector de seguridade alimentaria é chamado para investigar un restaurante con algúns informes de
clientes sobre prácticas sanitarias deficientes.
O inspector de seguridade alimentaria quere empregar o marco dos contrastes de hipóteses para avaliar
se se incumpren as normas. Se decide que o restaurante comete unha infracción grave, revogaráselle a
licenza para servir alimentos.
· Como cliente, ¿preferirías que o inspector de seguridade alimentaria esixise probas contundentes ou
probas moi contundentes de problemas de saúde antes de revogar a licenza do restaurante?
76/123
Contraste de hipóteses
Caso práctico
Verdadeiro ou falso
Determina se as seguintes afirmacións son verdadeiras ou falsas
· Se se reduce o nivel de significación dun contraste (α) entón aumentará a probabilidade de cometer un
erro de tipo I.
· Supoñamos que a hipótese nula é H0 : p = 0.5 e, ao facer o contraste, non rexeitamos H0 . Entón
podemos dicir que a verdadeira proporción na pobación de interese é 0.5.
77/123
Contrastes de hipóteses
Pasos para o contraste
Os contrastes de hipóteses sempre se basean nos seguintes pasos e ideas:
· Seleccionar un estatístico de contraste (que denotamos como D). Este estatístico vainos servir para
medir a concordancia/discrepancia entre os datos e H0 (vainos dar a regra ou criterio de decisión). O
estatístico de contraste é unha variable aleatoria: o seu valor pode cambiar con cada mostra concreta
que teñamos.
· Determinar a distribución na mostraxe de D baixo H0 (é dicir, baixo o suposto de que H0 sexa certa).
¿Por que é necesario este paso (que é o fundamental)? Porque esta distribución dinos exactamente que
valores de D podemos esperar observar se a hipótese nula é certa ⟹ podemos utilizar esta
distribución como ferramenta para avaliar a concordancia/discrepancia entre H0 e os datos que temos
(mostra).
78/123
Contrastes de hipóteses
Pasos para o contraste
· Fixar o nivel de significación, α (por exemplo α = 0.05).
· Dividir en dúas rexións os posibles valores do estatístico de contraste: rexión de aceptación e rexión de
rexeitamento/crítica. Estás rexións obtéñense a partir da distribución na mostraxe de D baixo H0
⟹ Estas rexións son as que determinan a regra ou criterio de decisión (a partir do valor crítico, que é
o valor, ou valores, que separa as rexións de aceptación e rexeitamento).
79/123
Contrastes de hipóteses
Pasos para o contraste
· Tomar a decisión. Unha vez que teñamos a mostra concreta, calcularemos o valor concreto do
estatístico de contraste D:
- Se ese valor cae na rexión crítica, rexeitarei a hipótese nula, e, por tanto aceitarei a hipótese
alternativa ⟹ Neste caso diremos que contraste foi estatísticamente significativo.
- Se ese valor cae na rexión de aceptación, entón os datos non aportan evidencia de que a hipótese
nula sexa falsa ⟹ Neste caso diremos que contraste foi non significativo.
80/123
Contrastes de hipóteses
Exemplo
Un centro de acuicultura está interesado en mercar ese penso, pero antes quere determinar se
a afirmación que fai a empresa sobre o peso medio é certa
Para elo “colle” a 16 robalizas, as alimenta con ese penso, e ao final do proceso determina o peso
acadado. Os pesos obtidos amósanse a continuación
## [1] 0.70375 0.80375 1.34375 0.89375 0.91375 1.38375 1.01375 0.49375 0.66375
## [10] 0.74375 1.24375 0.98375 0.99375 0.90375 0.70375 1.41375
Son os datos coherentes co que indica a empresa de que o peso medio é 1kg ou polo contrario
aportan evidencia de que é diferente de 1kg?
H0 :μ = 1
H1 :μ ≠ 1
Notade que os datos arroxan un valor medio de descontinuade x̄ = 0.95.
81/123
Contrastes de hipóteses
Sexa X1 , X2 , …, XN unha m.a.s. da variable aleatoria X de interese con X ∼ N(μ, σ).
· Supoñamos, de momento, que σ é coñecido (moi infrecuente)
· Queremos contrastar unha hipótese sobre a media poboacional μ (que é descoñecida para nós). En
particular, interésanos o seguinte contraste
H0 :μ = μ0
H1 :μ ≠ μ0
onde μ0 é un valor pre-especificado (valor que hipotetizamos).
· O sentido común aconséllanos rexeitar a hipótese nula H0 de que a media poboacional μ toma o valor
μ0 cando a media mostral X̄ sexa moi distinta de μ0 .
· Recordemos que
( √N ‾‾ )
σ
X̄ ∼ N μ,
82/123
Contrastes de hipóteses
Exemplo
· Para o noso exemplo, supoñamos que a nosa variable aleatoria
· Queremos contrastar a seguinte hipótese sobre media poboacional μ (que é descoñecida para nós)
H0 :μ = 1
H1 :μ ≠ 1
· Seguindo o argumento anterior, rexeitaremos a hipótese nula H0 de que a media poboacional μ toma o
valor 1 cando a media mostral X̄ sexa moi distinta de 1.
83/123
Contrastes de hipóteses
Exemplo
(0.853, 1.147)
⟹ Reteremos (non rexeitaremos) a hipótese nula H0 . Ese intervalo/rexión recebe o nome de Rexión de
aceptación
85/123
Contrastes de hipóteses
Exemplo
· Para o noso exemplo tiñamos que x̄ = 0.95 que cae na rexión de aceptación ⟹ retemos a hipótese
nula.
· Concluímos por tanto que, para un nivel de significación de α = 0.05, os datos non aportan evidencia
suficiente de que a hipótese nula (H0 : μ = 1) é falsa ⟹ non hai evidencia suficiente de que o peso
medio que acadan as robalizas alimentadas co penso experimental é diferente de 1kg.
· Neste caso diremos que temos un resultado do contraste que non é estatisticamente significativo en
contra de H0 : μ = 1.
86/123
Contrastes de hipóteses
Exemplo: α = 0.01
87/123
Contrastes de hipóteses
Exemplo: α xenérico
88/123
Contrastes de hipóteses
Exemplo: tipificación
89/123
Contrastes de hipóteses
Exemplo: tipificación
· Neste caso, e fixado o nivel de significación α, as rexións de aceptación e rexeitamento só dependen do
cuantil de orde 1 − α/2 da N(0, 1)
- Se DObs cae na rexión crítica ⟹ rexeitaremos a hipótese nula H0 , e por tanto, aceitaremos a
hipótese alternativa H1
90/123
Contrastes de hipóteses
Exemplo: tipificación
· Para o noso exemplo tiñamos que x̄ = 0.95.
0.95 − 1
DObs = 0.3
= −0.6666667.
√16
91/123
Contrastes de hipóteses
Contrastes unilaterais
Nalgunhas situacións estaremos interesados en contrastes da forma
· Unilateral inferior
H0 :μ ≥ μ0
H1 :μ < μ0
· Unilateral superior
H0 :μ ≤ μ0
H1 :μ > μ0
· Unilateral inferior: A media mostral X̄ sexa “considerablemente menor” que μ0 , ou, equivalentemente,
X̄ −μ0
D= sexa “considerablemente menor” que 0.
σ/√N
· Unilateral superior: A media mostral X̄ sexa “considerablemente maior” que μ0 , ou, equivalentemente,
X̄ −μ0
D= sexa “considerablemente maior” que 0.
σ/√N
92/123
Contrastes de hipóteses
Tipos de contraste e rexións de aceptación e críticas
Bilateral Unilateral inferior Unilateral superior
H0 :μ = μ0 H0 : μ ≥ μ0 H0 : μ ≤ μ0
H1 :μ ≠ μ0 H1 : μ < μ0 H1 : μ > μ0
X̄ −μ0
Función de densidade do estatístico de contraste D = σ/√N
baixo H0 (D ∼ N(0, 1)).
93/123
Contrastes de hipóteses
Tipos de contraste e rexións de aceptación e críticas
Bilateral Unilateral inferior Unilateral superior
H0 :μ = μ0 H0 : μ ≥ μ0 H0 : μ ≤ μ0
H1 :μ ≠ μ0 H1 : μ < μ0 H1 : μ > μ0
Rexión de aceptación: Rexión de aceptación: Rexión de aceptación:
94/123
Contrastes de hipóteses
p-valor
· En certo sentido, o noso contraste de hipótese está completo: (1) eliximos un estatístico de contraste, (2)
calculamos a súa distribución de mostraxe baixo a hipótese nula; (3) construímos a rexión crítica, e (4)
tomamos a decisión.
· Con todo, na presentación anterior omitimos o número “máis importante de todos” (o que ides atopar en
todos os lados): o p-valor.
· O p-valor obtense a partir do valor do estatístico de contraste calculado na mostra Dobs . Ao igual que as
rexións de aceptación e rexeitamento/crítica, o cálculo do p-valor depende do tipo de contraste que
teñamos (bilateral ou unilateral).
O p-valor é a probabilidade de obter un valor do estatístico de contraste que sexa tan ou máis
contraditorio con H0 como o que se observou a partir da mostra, supoñendo que H0 é certa.
95/123
Contrastes de hipóteses
p-valor
Bilateral Unilateral inferior Unilateral superior
H0 : μ = μ0 H0 : μ ≥ μ0 H0 : μ ≤ μ0
H1 : μ ≠ μ0 H1 : μ < μ0 H1 : μ > μ0
p-valor = 2 × P (D ≥ |Dobs |) p-valor = P (D ≤ Dobs ) p-valor = P (D ≥ Dobs )
X̄ −μ0
Función de densidade do estatístico de contraste D = σ/√N
baixo H0 (D ∼ N(0, 1)).
96/123
Contrastes de hipóteses
p-valor
O p-valor é a probabilidade de obter un valor do estatístico de contraste que sexa tan ou máis
contraditorio con H0 como o que se observou a partir da mostra, supoñendo que H0 é certa.
· Intuitivamente, o p-valor é unha medida da evidencia en contra de H0 : canto menor sexa o p-valor,
maior é a evidencia en contra de H0 .
· Ademais, se coñecemos o p-valor, podemos tomar a decisión (sen necesidade de coñecer ou calcular a
rexión crítica)
97/123
Contrastes de hipóteses
p-valor
· Finalmente recalcar que un p-valor grande (retemos a hipótese nula) pode ocorrer por dúas razóns:
- H0 é certa; ou
- H0 é falsa, pero o procedemento de contraste ten pouca potencia.
98/123
Contrastes de hipóteses
Resumo
A modo resumo, estes son os pasos para realizar un contraste de hipóteses:
· Paso 3: Elexir o estatístico de contraste D que empregaremos para medir a discrepancia entre a hipótese
nula e os datos. Deberemos determinar a súa distribución baixo H0 .
- Se cae na rexión de aceptación, non hai evidencias de que H0 é falsa ⟹ non rexeitamos H0 (pero
tampoco podemos dicir que sexa verdadeira).
- Se cae na rexión crítica, hai evidencias “fortes” de que H0 é falsa ⟹ rexeitamos H0 e, polo tanto,
aceptamos H1 .
H0 :μ = μ0 H0 :μ ≥ μ0 H0 :μ ≤ μ0
H1 :μ ≠ μ0 H1 :μ < μ0 H1 :μ > μ0
100/123
Función de densidade do estatístico de contraste D baixo H0 (D ∼ N(0, 1)).
Contrastes de hipóteses
Contrastes notables
H0 :μ = μ0 H0 :μ ≥ μ0 H0 :μ ≤ μ0
H1 :μ ≠ μ0 H1 :μ < μ0 H1 :μ > μ0
Rexión de aceptación: Rexión de aceptación: Rexión de aceptación:
101/123
Contrastes de hipóteses
Contrastes notables
X̄ − μ0
D= S
∼ tN−1 baixo H0
√N
Bilateral Unilateral inferior Unilateral superior
H0 :μ = μ0 H0 :μ ≥ μ0 H0 :μ ≤ μ0
H1 :μ ≠ μ0 H1 :μ < μ0 H1 :μ > μ0
102/123
Función de densidade do estatístico de contraste D baixo H0 (D ∼ tN−1 ).
Contrastes de hipóteses
Contrastes notables
H0 :μ = μ0 H0 :μ ≥ μ0 H0 :μ ≤ μ0
H1 :μ ≠ μ0 H1 :μ < μ0 H1 :μ > μ0
Rexión de aceptación: Rexión de aceptación: Rexión de aceptación:
103/123
Contrastes de hipóteses
Exercicio
No ano 2005, os furacáns Katrina e Rita provocaron a inundación de amplas zonas de Nova
Orleans, deixando tras de si grandes cantidades de novos sedimentos. Antes dos furacáns,
sabíase que os chans de Nova Orleans tiñan altas concentracións de chumbo, que é unha
perigosa toxina ambiental.
Nun estudo previo aos furacáns, monitorizáranse 10 zonas de Nova Orleans e determinárase o
contido de chumbo no chan (medido en mg/kg). As mesmas 10 zonas foron monitorizadas
despois dos furacáns, e volveuse a determinar o contido de chumbo no chan.
## [1] -0.83 -0.18 0.14 -1.46 -0.48 0.25 -0.81 0.37 -0.90 -0.51
Notade que neste caso valores menores que cero indican unha redución do contido de chumbo
no chan despois dos furacáns e valores maiores que cero indican un incremento.
Sobre a base deses datos (x̄ = -0.441 e s = 0.5853479) ¿Hai evidencia de que, en media, houbo
unha redución do contido de chumbo no chan despois dos furacáns?
104/123
Contrastes de hipóteses
Exercicio (solución)
· O noso interese aquí é validar se μ < 0. Colocamos, por tanto, esa hipótese na alternativa. Dese
xeito, se o contraste sae a rexeitar, podemos estar razoablemente seguros de que μ < 0 (de que
efectivamente houbo unha redución no contido de chumbo).
H0 :μ ≥ 0
H1 :μ < 0
Temos por tanto un contraste unilateral inferior.
105/123
Contrastes de hipóteses
Exercicio (solución cont.)
Unha vez determinada a hipótese nula e a alternativa, realicemos agora o contraste. Para elo
imos seguir tódolos pasos
· Paso 2: Escoller o nivel de significación. Para este caso imos escoller o valor α = 0.05.
· Paso 3: Elixir o estatístico de contraste. Estamos ante un contraste para para a media
poboacional μ dunha variable Normal da cal descoñecemos a varianza poboacional σ 2 . Por tanto
X̄ − μ0 X̄ − 0
D= S
= S
∼ t9 baixo H0
√N √10
106/123
Contrastes de hipóteses
Exercicio (solución cont.)
· Paso 5: Calcular o valor observado do estatístico de contraste e tomar a decisión. Neste caso, x̄
= -0.441 e s = 0.5853479, por tanto
−0.441 − 0
DObs = 0.5853479
= −2.3824538.
√10
Dado que o valor do estatístico de contraste cae na rexión de rexeitamento, concluímos que,
para un nivel de significación de α = 0.05, os datos proporcionan evidencia de que a hipótese
nula é falsa, e, por tanto, a alternativa é certa (H1 : μ < 0). É dicir, os datos proporcionan
evidencia de que, en media, houbo unha redución no contido de chumbo no chan de de Nova
Orleans despois dos furacáns.
107/123
Contrastes de hipóteses
Contrastes notables
p̂ − p0
D= aprox. N(0, 1) baixo H0
‾p‾‾‾‾‾
0 (1−p0‾
√ N
)
H0 :p = p0 H0 :p ≥ p0 H0 :p ≤ p0
H1 :p ≠ p0 H1 :p < p0 H1 :p > p0
H0 :p = p0 H0 :p ≥ p0 H0 :p ≤ p0
H1 :p ≠ p0 H1 :p < p0 H1 :p > p0
Rexión de aceptación: Rexión de aceptación: Rexión de aceptación:
109/123
Contrastes de hipóteses
Exercicio
En 2018, a General Society Survey preguntou a unha mostra aleatoria de 1563 adultos
estadounidenses: “¿Cre que o consumo de marihuana debería legalizarse?”. O 57% dos enquisados
respondeu afirmativamente.
Consideremos un escenario no que para legalizarse o consumo de marihuana máis do 55% dos
adultos estadounidenses deberían aprobalo.
110/123
Contrastes de hipóteses
Exercicio (solución)
Dado que o noso interese é validar se na poboación estadounidense p > 0.55 (de ser así,
legalizaríase a marihuana), colocamos esa hipótese na alternativa. Dese xeito, se o contraste sae a
rexeitar, podemos estar razoablemente seguros de que p > 0.55
H0 :p ≤ 0.55
H1 :p > 0.55
Temos por tanto un contraste unilateral superior.
111/123
Contrastes de hipóteses
Exercicio (solución cont.)
Unha vez determinada a hipótese nula e a alternativa, realicemos agora o contraste. Para elo
imos seguir tódolos pasos
· Paso 2: Escoller o nivel de significación. Para este caso imos escoller o valor α = 0.01.
· Paso 3: Elixir o estatístico de contraste. Estamos ante un contraste para unha proporción, por
tanto
p̂ − p0 p̂ − 0.55
D= = aprox. N(0, 1) baixo H0
‾p‾‾‾‾‾
0 (1−p0‾ ‾0.55(1−0.55)
‾‾‾‾‾‾‾‾‾
√ N √ 1563
)
112/123
Contrastes de hipóteses
Exercicio (solución cont.)
· Paso 5: Calcular o valor observado do estatístico de contraste e tomar a decisión. Neste caso,
p̂ = 0.57, por tanto
0.57 − 0.55
DObs = = 1.5893586.
‾0.55(1−0.55)
‾‾‾‾‾‾‾‾‾
√ 1563
Dado que o valor do estatístico de contraste cae na rexión de aceptación, concluímos que, para
un nivel de significación de α = 0.01, os datos NON proporcionan evidencia suficiente de que a
hipótese nula é falsa. É dicir, os datos NON proporcionan evidencia suficiente de que, no caso
de votarse, a marihuana sería legalizada nos Estados Unidos.
113/123
Contrastes de hipóteses
Potencia dun contraste
Ata o momento non falamos da potencia do contraste máis que para definila
114/123
Contrastes de hipóteses
Potencia dun contraste
Volvendo ao exemplo do comezo desta sección (o das robalizas), se na verdade μ = 0.95, é dicir a
hipótese nula é falsa ¿que probabilidade hai de rexeitala?
∑16
i=1 Xi
Distribución de X̄ = 16
cando μ = 1 ou μ = 0.95
115/123
Contrastes de hipóteses
Potencia dun contraste
P (rexeitar H0 ∣ H0 é falsa) = 0.0759355 + 0.0064404 = 0.082376.
116/123
Contrastes de hipóteses
Potencia dun contraste
¿E se μ = 0.7?
∑16
i=1 Xi
Distribución de X̄ = 16
cando μ = 1 ou μ = 0.7
117/123
Contrastes de hipóteses
Potencia dun contraste
¿E se μ = 0.7?
P (rexeitar H0 ∣ H0 é falsa) = 0.885372 + 1.5093347 × 10−7 = 0.8853722.
Como vemos, a potencia depende do verdadeiro valor do parámetro μ. Para distintos valores de μ
obteremos distintos valores para a potencia. Pódese considerar entón a potencia como unha
función do parámetro: a medida que a verdadeira media poboacional μ toma valores máis
alonxados de 1 (valor hipotetizado) a potencia do test aumenta. Esa función chámase curva de
potencia, e serve para comparar distintos procedementos de contraste.
118/123
Contrastes de hipóteses
Potencia dun contraste
¿E se aumentamos o tamaño mostral? (en lugar dunha mostra de tamaño N = 10 collemos unha mostra
de tamaño N = 80)
∑80
i=1 Xi
Distribución de X̄ = 80
cando μ = 1 ou μ = 0.95
119/123
Contrastes de hipóteses
Potencia dun contraste
Como vemos, a potencia depende do tamaño mostral. Para distintos valores de N obteremos
distintos valores para a potencia. Pódese considerar entón a potencia como unha función do
tamaño mostral: a maior valor de N maior potencia.
120/123
Contrastes de hipóteses
Outros contrastes
· Contrastes para comparar medias (Tema 5)
· etc
121/123
Recursos
Recursos
Algúns dos exemplos e ideas empregados neste tema foron extraídos de:
· Çetinkaya-Rundel, M. e Hardin, J. (2021). Introduction to Modern Statistics, OpenIntro. O libro é de
acceso libre no seguinte enlace: https://openintro-ims.netlify.app/ (texto en Inglés).
· Mirás Calvo M.A., Sánchez Rodríguez E. (2018). Técnicas Estadísticas con Hoja de Cálculo y R: Azar y
Variabilidad en las Ciencias Naturales (1º Edición). Servizo de Publicacións da Universidade de Vigo
(Lectura recomendada).
· Navarro, D. (2018). Learning statistics with R: A tutorial for psychology students and other beginners.
O libro é de acceso libre no seguinte enlace: https://open.umn.edu/opentextbooks/textbooks/559 (texto
en Inglés).
· Underwood, A.J. (2002). Experiments in Ecology: Their logical design and interpretation using analysis
of variance. Cambridge (texto en Inglés).
· Whitlock M.C., Schluter D. (2020). The Analysis of Biological Data (3ª Edición). WH Freeman (texto en
Inglés; lectura recomendada).
Agradecementos:
· Parte do material deste tema está baseado en material proporcionado por Juan Carlos Pardo Fernández
(Profesor titular do Departamento de Estatística e Investigación Operativa da UVIGO).
· As iconas empregadas nas notas e exercicios foron deseñadas por Freepik de Flaticon (https://
www.flaticon.com/).
123/123