Download as pdf or txt
Download as pdf or txt
You are on page 1of 15

LLIÇÓ 5:

PROCEDIMENTS DE
CONTRASTACIÓ I SELECCIÓ DE
MODELS

Material elaborat pel prof. Raúl Ramos (curs 2006-2007)

Versió modificada pels professors Antoni Messeguer (curs 2010-


2011) i José Ramón García i Esther Vayá (curs 2011-2012)

Lliçó 6: PROCEDIMENTS DE
5.1. Procediments de contrastació.
CONTRASTACIÓ I SELECCIÓ DE
MODELS
5.2.Tres contrastos asimptòtics: Raó de versemblança,
Wald i multiplicadors de Lagrange.
5.3. Validació versus selecció de models

Bibliografia:

NOVALES, A. (1993): Econometría. 2ª edició. Ed. Mc Graw-Hill.


WOOLDRIDGE, J.M. (2005) Introducción a la Econometría. Un enfoque moderno.
GUJARATI, D.M.N. I PORTER, D.C. (2009) Econometría. Ed. Mc Graw-Hill.

1
5.1. Procediments de contrastació

i. Introducció

– Els contrastos d’hipòtesi es basen en la construcció


d’estadístics -a partir d’una determinada mostra- que
permetin decidir, amb un nivell de confiança raonable (1-
α), si aquestes dades podrien haver estat generades per
una població amb unes determinades característiques.

– Objectiu bàsic dins aquest tema:

podem “refiar-nos” dels resultats del model que hem


especificat per treure conclusions econòmiques?

ii. Principis generals de contrastació


– El primer pas sempre consisteix en definir la hipòtesi a
contrastar.
– Normalment cal definir una hipòtesi nul·la (H0) i una
hipòtesi alternativa (H1 o HA ), que pot ser unilateral o
bilateral

Exemple: Suposeu que es vol estudiar l’alçada de la població d’una


determinada ciutat. Per a fer aquest estudi, es recull una mostra de 100
persones, a les quals es mira l’alçada. Es té la sospita que l’alçada mitjana
de la població és d’1,75 metres. Volem analitzar aquesta suposició fent el
contrast d’hipòtesi següent (bilateral) amb un nivell de confiança del 95%:

H0: µ = 1,75
H1: µ ≠ 1,75

2
– El procediment seguit per a contrastar hipòtesis
consisteix a establir una regla de decisió basada en
l’evidència empírica. Aquesta regla es construeix a
partir del que anomenem estadístic de prova del
contrast:

Si tenim una mostra de mida n d’una distribució N(µ,σ2), aleshores la


següent variable:

segueix una distribució normal estàndard.

– L’espai mostral es divideix en dues regions: la regió de


rebuig de la hipòtesi nul·la i la “regió de no rebuig”
on no es rebutja la hipòtesi nul·la.
5

– Qualsevol contrast dóna lloc a dos tipus d’error:


– Error tipus I: el contrast porta a rebutjar la hipòtesi nul·la quan
és certa
– Error tipus II: el contrast porta a no rebutjar la hipòtesi nul·la
quan aquesta és falsa

– A partir d’aquests errors es defineixen dos conceptes:


– Nivell de significació o mida del contrast: probabilitat de
cometre un error tipus I (es nomena α)
– Potència del contrast: probabilitat de rebutjar la hipòtesi nul·la
quan aquesta és falsa (1-probabilitat d’error tipus II = 1-β)

Decisions

No Rebutjar H0 Rebutjar H0
H0 Certa Decisió correcta Error Tipus I
Situacions
H0 Falsa Error Tipus II Decisió correcta

3
– El nivell de significació del contrast està sempre sota control de
l’investigador, és a dir, es tria el nivell d’error tipus I que s’està
disposat a assumir (p.e. α=0,05).
– Atenció: com més petit sigui aquest error més augmentarà l’error
tipus II, ja que α i β estan inversament relacionades. S’ha d’intentar
que per un determinat nivell d’error tipus I, el procediment de
contrastació tingui una probabilitat associada a l’error tipus II el més
petita possible.
– Procediment habitual:
1. Definirem un estadístic de prova calculat a partir de les dades de
partida.
2. El compararem amb un valor crític d’una determinada distribució,
un cop fixat el nivell de significació que volem assumir.
3. La regla de decisió (rebutjar o no H0) es basarà en comparar
l’estadístic de prova amb el valor crític. Si l’estadístic de prova és
més gran que el valor crític, es rebutja la H0 .

Zona de no rebuig
8

4
5.2. Tres contrastos asimptòtics
– El procediment de contrastació per intervals de confiança
és especialment adequat quan es contrasta una hipòtesi
nul·la relativament “senzilla”, p.e. quan conté un únic
paràmetre.
– La idea en aquests procediments és que un cop s’ha estimat
un paràmetre, es calcula un interval pel nivell de confiança
triat al voltant de l’estimador i es rebutja H0 si el valor que li
suposem cau fora d’aquest interval.
– En molts casos, aquests contrastos es realitzen a partir dels
estadístics de proba de la t i de la F. Malgrat això, aquests
són solament vàlids en l’entorn de models lineals. Però, com
podem contrastar hipòtesis més complexes o en l’entorn de
models no lineals?
9

– Per fer-ho requerim dels contrastos de versemblança. A


continuació s’ofereixen algunes idees bàsiques sobre els
tres contrastos següents: Raó de versemblança, Wald, i
Multiplicadors de Lagrange.

– Els tres es basen en el càlcul de la funció de


versemblança, sota el supòsit que εi ~ N (0, σ ε2 )

N −∑ N
ε i2 
  
L = Π f (β ; ε i ) = 
N 1 
 ⋅ exp  i =1 2 
i =1
 σ ε ⋅ 2π   2 ⋅σ ε 
 

– Estimador MV: elegir els β que maximitzin L, i que fan


que les dades observades siguin els més versemblants
10

5
i. Raó de versemblança

– S’estimen per MV dos models, el restringit i l’ampliat, i


la raó de versemblança és:
L( βˆR )
λ= ∈ [0,1]
L( βˆ )
– Si els màxims són aprox. iguals, aleshores λ ~ 1, si són
diferents tendirà a 0 (ja un model està “dintre” de l’altre).

– Quina distribució té λ? A nivell asimptòtic tenim que (m


és el número de restriccions):
λ* = −2 ln λ ≈ χ m2
– La regla de decisió és la següent: si λ* < χ2(taules)
aleshores no es rebutja H0 (no es rebutgen les
restriccions). 11

Exemple:
Suposem que es pretén modelitzar el preu de les vivendes d’una zona (PREU) en
funció de la mida de la vivenda, mesurada en metres quadrats (MIDA), el nombre
d’habitacions (HABITACIONS), la distància a la incineradora de la zona
(DISTÀNCIA) i el nombre de banys de la vivenda (BANYS). Per fer-ho es disposa
d’una mostra de 142 observacions.
PREU i = β 1 + β 2 MIDA i + β 3 HABITACION S i + β 4 DISTÀNCIA i + β 5 BANYS i + u i
on les variables estan expressades en logaritmes neperians.

Dependent Variable: LPREU


Method: Least Squares
Sample: 1 142
Included observations: 142
Variable Coefficient Std. Error t-Statistic Prob.
C 7.558631 0.681958 11.08371 0.0000
LMIDA 0.290165 0.076498 3.793092 0.0002
LHABITACIONS 0.302579 0.191116 1.583225 0.1157
LDISTANCIA 0.092539 0.043684 2.118376 0.0359
LBANYS 0.470838 0.066569 7.072954 0.0000
R-squared 0.714604 Mean dependent var 11.62902
Adjusted R-squared 0.706271 S.D. dependent var 0.389921
S.E. of regression 0.211324 Akaike info criterion -0.236271
Sum squared resid 6.118132 Schwarz criterion -0.132192
Log likelihood 21.77521 F-statistic 85.75878
Durbin-Watson stat 1.429281 Prob(F-statistic) 0.000000

12

6
Si volem fer el contrast H 0 : β3 = β 4 = 0
H A : No H 0

PREUi = α1 + α2 MIDAi + α3 BANYSi + ui

Dependent Variable: LPREU


Method: Least Squares
Sample: 1 142
Included observations: 142
Variable Coefficient Std. Error t-Statistic Prob.
C 8.722051 0.524078 16.64265 0.0000
LMIDA 0.322773 0.072815 4.432787 0.0000
LBANYS 0.551152 0.061482 8.964434 0.0000
R-squared 0.697877 Mean dependent var 11.62902
Adjusted R-squared 0.693530 S.D. dependent var 0.389921
S.E. of regression 0.215859 Akaike info criterion -0.207481
Sum squared resid 6.476727 Schwarz criterion -0.145034
Log likelihood 17.73117 F-statistic 160.5385
Durbin-Watson stat 1.415955 Prob(F-statistic) 0.000000

 ( )
λ* = − 2 ln λ = − 2  ln L βˆ R − ln L βˆ 
 ( ) on sabem que

( )
ln L βˆ = 21,77521 ( )
ln L βˆ R = 17 ,73117

λ* = − 2 [17 ,73117 − 21,77521] = 8,088 χ 22 = 5,99 , rebutgem la H0

13

i. Raó de versemblança
– Cas particular: H0: β3 = β4 = ... = βk = 0 y = β1 + β2x2 + u
H1: No H0 y = β1 + β2x2 + β3x3 + … + βkxk + u
1. Restriccions lineals
En aquest cas, el nombre de restriccions és k-2
2. NO var. dep. retardada

1. Si fem el quocient de les funcions de versemblança i simplifiquem, podem


N
escriure la RV així: − −
N
 σˆ R2  2  SQER  2
λ =  2  =  
 σˆ   SQE 
2. No es coneix la distribució de λ, però si la d’una Transformació monòtona:
 N − k   − N  que es distribueix com una F
2
~
λ =  ⋅  λ − 1 (k-2, N-k)
 k −2   
3. I si substituïm el valor de λ en el pas 2, obtenim la següent expressió:
SQE R − SQE
k −2 Exemple
λ% = ≈ F( k − 2 ,N − k )
SQE
14
N −k

7
ii. Wald
– És d’utilitat quan H0 (model restringit) presenta dificultats d’estimació
– S’estima el model no restringit
– Contrast asimptòticament equivalent al de la “F”

Cas 1. Una restricció simple


H0: βi = β*
W=
(βˆ − β ) = (βˆ − β )
*
2
*
2

≈ χ12
Var (βˆ − β ) Var (βˆ )
i i
H1: βi ≠ β* i
*
i

Cas 2. Diverses restriccions simples (R=1kx1)


(
H0: (β1, β2, …, βk) = β1* , β 2* ,..., β k* )
(
H1: (β1, β2, …, βk) ≠ β1* , β 2* ,..., β k* )
( '
W = βˆ − β * ⋅ Var βˆ ) [ ( )] ⋅ (βˆ − β ) ≈ χ
−1 * 2
k

15

ii. Wald
σ 2 ⋅ (X ' ⋅ X )
−1

Cas 3. Restriccions lineals (Rqxk i rqx1) Exemple


H0: R·β = r
H1: R·β ≠ r
( )[
'
W = R ⋅ βˆ − r ⋅ R ⋅Var βˆ ⋅ R ' ( ) ] ⋅ (R ⋅ βˆ − r ) ≈ χ
−1 2
q

Cas 4. Restriccions no lineals (linealització)


H0: f(β) = 0qx1
H1: f(β) ≠ 0qx1
Matriu q x k
−1
 ∂f  ∂f ˆ  
() () () ()
'
'
W = f βˆ ⋅ 
β

(
βˆ  ⋅ σ 2 ⋅ X ' ⋅ X )−1
⋅  β   ⋅ f βˆ ≈ χ q2
 ∂   ∂β  

16

8
ii. Wald

Cas 5. Restriccions no lineals (cas general) Exemple


H0: f(β) = 0qx1
H1: f(β) ≠ 0qx1

−1
'  ∂f  ∂f ˆ  
() () () () ()
'
 −1
W = f βˆ ⋅  βˆ  ⋅ I βˆ ⋅  β   ⋅ f βˆ ≈ χ q2
 ∂β   ∂β  

 ∂ 2 log L 
Matriu d’informació: I (β ) = − E  (β )
 ∂β ∂β
'

17

ii. Wald

Cas 6. Modificació del contrast per restriccions lineals i en


petites mostres (versió F)
– Per evitar l’estimació de σ

A=
(R ⋅ βˆ − r ) ⋅ [R ⋅ (X ⋅ X )
'
' −1
⋅ R' ] ⋅ (R ⋅ βˆ − r ) ≈ χ
−1
2

σ2 q
A T −k
⋅ ≈ Fq ,T − k
B=
(Y − X ⋅ βˆ ) ⋅ (Y − X ⋅ βˆ ) = e ⋅ e ≈ χ
'
'
2
T −k
B q
σ2 σ2

18

9
iii. Multiplicadors de Lagrange

– Només s’estima el model restringit


– Molt útil quan el model restringit presenta facilitat de càlcul
– La idea és que a partir de l’estimador de màxima versemblança
sota les restriccions de la Hipòtesi nul·la (θˆR ) podem obtenir el
següent estadístic:

 ∂ ln L(θˆR )  ˆ −1  ∂ ln L(θˆR ) 
ML =   I (θ R )  
 ∂θˆR   ∂θˆR 

– Aquest estadístic es distribueix con una khi-quadrat amb q graus de


llibertat, on q és el nombre de restriccions avaluat.

19

iii. Multiplicadors de Lagrange

– En termes computacionals, el contrast es pot reduir a:

ML = T ⋅ R 2 ≈ χ q2 Exemple

T: grandària mostral
q: número de restriccions
R2: coeficient de determinació de la regressió entre els residus MQO
obtinguts de l’estimació del model restringit sobre les derivades
parcials del terme d’error del model ampliat sobre els paràmetres
(amb signe invertit), avaluats sota H0 (model restringit).

20

10
iv. Comparació entre tests
– Tots tres contrastos són equivalents a nivell assimptòtic, malgrat que
en mostra finita (petita) es compleix la següent desigualtat:

Wald > RV > ML

– L’elecció dels contrast estarà en funció de la complexitat de càlcul,


segons els requisits d’informació per cada cas:

General Restringit
Wald Sí No
RV Sí Sí
ML No Sí

21

5.3. Validació vs. selecció de models

Fins el moment, al llarg dels temes d’Econometria I i


II hem analitzat diversos instruments que ens
permeten validar el model que hem especificat…

Així, el contrastos que hem anat veient permeten saber


si el MRLMG compleix els requisits mínims que
garanteixen la validesa de la inferència i, així la
validesa de les conclusions del model.

22

11
Eines de validació

1. Anàlisi dels paràmetres estimats


i. Significació econòmica: signe i magnitud
ii. Significació estadística individual (t) i global (F)

2. Anàlisi dels residus MQO


i. Anàlisi gràfica (linealitat, outliers, terme d’error no esfèric...)
ii. Distribució dels residus (histograma, contrast Bera-Jarque)
iii. Contrastos específics (autocorrelació, heteroscedasticitat)

3. Canvi estructural i valoració de la capacitat predictiva


i. Canvi estructural: Chow
ii. Capacitat predictiva: Error absolut mig (EAM), Error
quadràtic mig (EQM), Error percentual absolut mig (EPAM)

23

– Però també ens podem trobar en un problema de selecció


de models. En aquest cas, l’objectiu serà “seleccionar” o
“discriminar” entre dos models alternatius.

– Per tal de saber els instruments que podem emprar, cal


distingir entre selecció de:

1. Models ennierats: totes les variables explicatives


d’un dels models estan també presents a l’altre
model.

2. Models no ennierats.

24

12
a) Models ennierats

– Hi ha tot un conjunt d’instruments ja coneguts per a


discriminar entre models ennierats
– Exemple de model ennierat:
H 0 : Yi = β1 + β 2 · X 2i + ... + β K · X Ki + U i
H A : Yi = β1 + (1 − β1 )· X 2i + ... + β K · X Ki + U i

– En aquest cas, per exemple, el contrast de la restricció


β2 = 1- β1, es pot realitzar a través dels tests habituals,
ja vistos.

25

b) Models no ennierats

– Hem d’utilitzar alguns instruments diferents als ja coneguts.


– Per exemple,
H 0 : Yi = β 1 + β 2 · X i + U i
H A : Yi = α 1 + α 2 ·Z i + Vi

– Com podem triar entre aquests dos models alternatius?


1. Coeficient de determinació corregit
2. Criteris d’informació:
– d’Akaike (AIC)
– de Schwarz (SC)
3. Basats en la capacitat de predicció
– error de predicció final

26

13
1. Coeficient de determinació corregit

– Es calcula, per cada model, la següent expressió, i s’elegeix el


que el té més alt:

N −1
R = 1− (1 − R 2 )
2

N −K
– Quan el nombre de variables explicatives K augmenta, la
fracció (N-1)/(N-K) també augmenta mentre que (1-R2)
disminueix, ja que l’R2 augmenta per definició. La idea és que
amb aquest estadístic tots dos efectes es compensen i permet,
per tant una valoració adequada de la bondat d’ajust del
model.

27

2.a. Criteri d’informació: d’Akaike (AIC)

– Es calcula a partir de la següent expressió:

2 2
AIC = − ·ln( L) + ·K
N N

– La idea bàsica d’aquest instrument consisteix a seleccionar el


model que implica la “mínima pèrdua d’informació”. Cal tenir
en compte que a mesura que augmenta el valor de la funció de
versemblança, l’AIC disminueix (corregint aquest valor pel
nombre de variables explicatives, ja que a mesura que
augmenta K, AIC també augmenta).
– S’hauria d’agafar aquell model amb menor valor d’AIC
(aquell amb menor SQE).

28

14
2.b. Criteri d’informació: de Schwarz (SC)

– Es calcula a partir de la següent expressió:

K ·ln( N ) SQE K ·ln( N )


SC = ln(σˆ 2 ) + = ln( )+
N N N

– Com més gran sigui la variància estimada del terme de


pertorbació, major serà el valor d’SC (tenint en compte el
nombre d’observacions N i el nombre de variables K del
model).

– Cal triar, per tant, el model amb el menor valor d’SC.

29

3. Error de predicció final (EPF)

– Es calcula a partir de la següent expressió:

N+K 2
EPF = (σˆ )
N −K

– Com més gran sigui la variància estimada del terme de


pertorbació, major serà el valor d’EPF (tenint en compte el
nombre d’observacions N i el nombre de variables K del
model).

– Cal triar, per tant, el model amb el menor valor d’EFP.

30

15

You might also like