Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 145

Econometría Aplicada a la Gestión

(MGMT-MSC 5411)I

Universidad de Addis Abeba, Oficina de Educación Continua y a Distancia

28 de febrero de 2018

Contenido

Universidad de Addis Abeba, Oficina de Educación Continua y a Distancia..................1


28 de febrero de 2018.......................................................................................................1
Contenido.................................................................................................................................ii
Chapter 1..................................................................................................................................1
Introducción.............................................................................................................................1
1.1 ¿Por qué estudiar econometría?.................................................................................1
1.2 El objetivo principal de este módulo.........................................................................2
1.3 Los resultados del aprendizaje...................................................................................2
1.4 Requisitos previos.....................................................................................................3

I Este material se basa en material tomado principalmente de un libro de AH Studenmund con la ayuda de Bruce
K. Johnson (2017) Using Econometrics A Practical Guide, 7.ª edición y Damodar Gujarati (2012) Econometrics by
Ejemplo . Otros materiales utilizados se reconocen en las secciones o capítulos donde se utilizan.
1.5 Recursos....................................................................................................................3
Chapter 2..................................................................................................................................4
Introducción a la econometría..................................................................................................4
2.1 ¿Qué es la econometría?............................................................................................5
2.2 ¿Qué es el análisis de regresión?...............................................................................7
2.3 Modelos lineales de una sola ecuación......................................................................9
2.4 El término de error estocástico..................................................................................9
2.4.1 La importancia del término de perturbación estocástica..................................10
2.5 Algunos puntos sobre notaciones............................................................................12
2.6 La ecuación de regresión estimada..........................................................................14
2.7 Estructuras de datos económicos.............................................................................15
2.7.1 Datos transversales...........................................................................................15
2.7.2 Datos de series de tiempo.................................................................................16
2.7.3 Secciones transversales agrupadas...................................................................17
2.7.4 Datos de panel o longitudinales.......................................................................17
2.8 Introducción a Stata......................................................................................................23
Capítulo 3...............................................................................................................................39
Mínimos cuadrados ordinarios...............................................................................................39
3.1 Introducción.............................................................................................................39
3.2 Objetivos de aprendizaje.........................................................................................39
3.3 Estimación de la modificación de una sola variable independiente els con OLS...40
3.3.1 ¿Por qué utilizar mínimos cuadrados ordinarios?............................................43
3.4 Variables ficticias.........................................................................................................57
3.4.1 Una nota sobre las escalas de medición de variables.......................................58
3.4.2 La naturaleza de las variables ficticias.............................................................60
3.4.3 Una única variable independiente ficticia........................................................60
Capítulo 4...............................................................................................................................59
Modelo clásico de regresión lineal.........................................................................................59
4.1 Objetivos de aprendizaje.........................................................................................59
4.2 Introducción.............................................................................................................59
4.3 Los supuestos clásicos.............................................................................................60
4.4 La distribución muestral de B.......................................................................................67
4.4.1 Propiedades de la media...................................................................................68
4.4.2 Propiedades de la varianza...............................................................................68
4.5 El teorema de Gauss-Markov.......................................................................................70
Capítulo 5...............................................................................................................................71
Prueba de hipótesis e inferencia estadística...........................................................................71
5.1 Introducción.............................................................................................................71
5.2 Objetivos de aprendizaje.........................................................................................72
5.3 Introducción.............................................................................................................72
5.3.1 Hipótesis nulas y alternativas clásicas.............................................................73
5.3.2 Errores tipo I y tipo II.......................................................................................74
5.3.3 Reglas de decisión de la prueba de hipótesis...................................................75
5.4 la prueba t................................................................................................................77
5.4.1 El estadístico t..................................................................................................77
5.4.2 El valor t crítico y la regla de decisión de la prueba t......................................79
5.4.3 Elegir un nivel de significancia........................................................................80
5.4.4 Valor p..............................................................................................................81
5.5 Limitaciones de la prueba t......................................................................................83
5.6 Intervalo de confianza.............................................................................................84
5.7 La prueba F..............................................................................................................85
5.7.1 ¿Qué es la prueba F?........................................................................................85
Capítulo 6...............................................................................................................................87
Violación de supuestos clásicos.............................................................................................87
6.1 Introducción.............................................................................................................87
6.2 Objetivos de aprendizaje.........................................................................................87
6.3 Multicolinealidad.....................................................................................................88
6.3.1 Pruebas de multicolinealidad...........................................................................91
6.3.2 Remedios para la multicolinealidad.................................................................93
6.4 Correlación serial..........................................................................................................93
6.4.1 Series de tiempo...............................................................................................94
6.4.2 Correlación serial pura.....................................................................................94
6.4.3 Correlación serial impura.................................................................................96
6.4.4 Consecuencias de la correlación serial.............................................................98
6.4.5 Detección de correlación serial........................................................................98
6.5 Heterocedasticidad........................................................................................................99
1.1.1 Las consecuencias de la heterocedasticidad...................................................105
1.1.2 Pruebas de heterocedasticidad........................................................................106
6.5.3 Remedios para la heterocedasticidad...................................................................110
Capítulo 7.............................................................................................................................113
Modelos de regresión para variables categóricas y dependientes limitadas........................113
7.1 Objetivos de aprendizaje.......................................................................................113
7.2 Introducción...........................................................................................................114
7.3 El modelo logit...........................................................................................................115
7.3.1 Datos a nivel individual..................................................................................117
7.3.2 Medidas de bondad de Öt...............................................................................119
7.4 Modelos de regresión multinomial.............................................................................120
7.4.1 MRM nominal para datos específicos de elección.........................................121
7.5 Modelos de regresión ordinal.....................................................................................124
7.5.1 Modelo Logit ordinal.....................................................................................126
Capítulo 8.............................................................................................................................128
Preguntas de revisión...........................................................................................................128
Bibliografía..........................................................................................................................135
2
Prefacio

El material de este módulo está diseñado para cubrir un curso de un solo semestre en
econometría aplicada para estudiantes de MBA a nivel de posgrado (Maestría) de la carrera
profesional. gramo en la Universidad de Addis Abeba y la mayoría de los programas de MBA en
otros lugares. Las notas están diseñadas para equipar a los estudiantes con las herramientas
básicas de econometría aplicada que son necesarias para realizar trabajos de investigación
cuantitativa en negocios y economía y también para poder leer y comprender artículos de revistas
académicas basados en investigación cuantitativa. Además, los apuntes están destinados a servir a
los estudiantes como herramientas para realizar sus propios trabajos de investigación en diferentes
ramas de los negocios y la economía. La filosofía básica detrás de la preparación del módulo es que
quan Los cursos titativos son herramientas para comprender la literatura y realizar investigaciones
rigurosas en negocios y economía. Para este efecto, hicimos nuestro mejor esfuerzo para discutir
las aplicaciones comerciales y económicas de los temas cubiertos en este curso. Se recomienda a
los estudiantes que practiquen las técnicas analizadas en el material utilizando conjuntos de datos y
software disponibles en línea. El software utilizado en el material es Stata.
El módulo está organizado en siete ocho capítulos. El Capítulo 1 motiva el curso al presentar a
los estudiantes sobre el uso de la econometría para la investigación aplicada en negocios y
economía, haciendo referencia a algunos ejemplos destacados en la disciplina. El capítulo también
describe los requisitos previos del curso y lo que los estudiantes esperan obtener de este curso. El
capítulo 2 trata de la estructura de la econometría e introduce uno de los conceptos básicos de la
econometría: el análisis de regresión, qué es, cómo funciona y qué planean obtener los
investigadores. En el capítulo 3, el módulo presenta una de las técnicas de estimación básicas y
más utilizadas: el método de mínimos cuadrados ordinarios, mientras que el capítulo 4 presenta
algunos conceptos básicos del modelo de regresión lineal clásico y el teorema de Gauss-Markov. El
capítulo 5 trata de la prueba de hipótesis y la inferencia estadística. Los supuestos de distribución
Las definiciones de las estimaciones, la prueba t, los valores p y la prueba F se analizan en el
capítulo 5. El Capítulo 6 presenta las violaciones de los supuestos estadísticos y qué hacer cuando
se violan los supuestos. El capítulo trata de tres de esas violaciones: mul ticolinealidad, correlación
serial y heterocedasticidad. El Capítulo 7 presenta los métodos de regresión utilizados cuando la
variable dependiente es categórica o limitada. En consecuencia, el capítulo presenta los métodos
del modelo de probabilidad lineal, el modelo logit, el modelo probit y los modelos tobit. Finalmente,
el capítulo 8 presenta brevemente el tiempo. Econometria en series.

ix
Chapter 1

Introducción

1.1 ¿Por qué estudiar econometría?


La econometría es fundamental para la medición económica. Sin embargo, su importancia se
extiende mucho más allá de la disciplina de la economía. La econometría es un conjunto de
herramientas de investigación que también se emplean en las disciplinas empresariales de
contabilidad, finanzas, marketing y gestión. Es utilizado por científicos sociales, específicamente
investigadores de historia, ciencias políticas y sociología. La econometría desempeña un papel
importante en campos tan diversos como la economía forestal y agrícola. Esta amplitud de
interés en la econometría surge en parte porque la economía es la base del análisis empresarial
y es la ciencia social central. Por tanto, los métodos de investigación empleados por los
economistas, que incluyen el campo de la econometría, son útiles para un amplio espectro de
personas.
La toma de decisiones en los negocios y la economía suele estar respaldada por el uso de
información cuantitativa. La econometría se ocupa de resumir información de datos relevantes
mediante un modelo. Estos modelos econométricos ayudan a comprender la relación entre las
variables económicas y empresariales y a analizar los posibles efectos de las decisiones.
La econometría se fundó como disciplina científica alrededor de 1930. En los primeros años,
la mayoría de las solicitudes trataban de cuestiones macroeconómicas para ayudar a los
gobiernos y a las grandes empresas a tomar decisiones a largo plazo.
Hoy en día la econometría constituye una herramienta indispensable para modelar la
realidad empírica en casi todas las disciplinas económicas y empresariales. Hay tres razones
principales para esta creciente atención a los datos factuales y a los modelos econométricos. La
teoría económica a menudo no proporciona la información cuantitativa que se necesita en la
toma de decisiones prácticas. Se encuentran disponibles datos cuantitativos relevantes en
muchas disciplinas económicas y comerciales. Los modelos realistas pueden resolverse
fácilmente mediante técnicas econométricas modernas para respaldar las decisiones cotidianas
de economistas y administradores de empresas.
En áreas como finanzas y marketing, los datos cuantitativos (sobre movimientos de precios,
patrones de ventas, etc.) se recopilan de forma regular, semanal, diaria o incluso cada fracción

1
2 CAPÍTULO 1 INTRODUCCIÓN

de segundo. También hay mucha información disponible en microeconomía (por ejemplo, sobre
el comportamiento de gasto de los hogares). Se han desarrollado técnicas econométricas para
tratar todo tipo de información de este tipo.
Por otro lado, si planea continuar su educación inscribiéndose en un posgrado Si estudias
en la universidad o en la facultad de derecho, descubrirás que esta introducción a la
econometría es invaluable. Si su objetivo es obtener una maestría o un doctorado. Licenciado
en economía, finanzas, contabilidad, marketing, economía agrícola, sociología, ciencias políticas
o silvicultura, encontrará más econometría en su futuro. Los cursos de posgrado tienden a ser
bastante técnicos y matemáticos, y el bosque a menudo se pierde en el estudio. ing los árboles.
Al realizar esta introducción a la econometría, obtendrá una visión general de qué se trata la
econometría y desarrollará cierta "intuición" sobre cómo funcionan las cosas antes de ingresar a
un curso de orientación técnica.

1.2 El objetivo principal de este módulo


El objetivo del curso es presentar a los estudiantes las técnicas básicas de econometría y
enseñarles los conceptos básicos de la teoría y la práctica de la econometría y darles
experiencia en la estimación de modelos econométricos con datos reales. El enfoque principal
está en el análisis de regresión de diferentes tipos de datos y, por lo tanto, en diferentes
tecnologías de estimación. niques. El análisis de regresión permite estimar una relación entre
variables. El curso también analiza los problemas que se encuentran comúnmente al estimar
dichos modelos y al interpretar las estimaciones de dichos modelos. Enfatiza el uso y la
interpretación de técnicas de regresión de ecuación única en la formulación y prueba de
hipótesis microeconómicas y macroeconómicas. El curso es introductorio y apto. orientado a la
plicatura. En consecuencia, el énfasis estará en la aplicación de técnicas y no se preocupará
demasiado por las demostraciones matemáticas. El curso también tiene como objetivo
proporcionar a los estudiantes una introducción a cómo utilizar Stata para tratar con empir.
obras icas. Se anima a los estudiantes a leer y discutir artículos académicos en su área de
especialización que utilizan el análisis de regresión de manera reflexiva para abordar en
preguntas de gestión interesantes y aplicarán las habilidades aprendidas en un proyecto de
econometría independiente utilizando un conjunto de datos y un tema de su elección.

1.3 Los resultados del aprendizaje


Al finalizar este curso, los estudiantes deberían poder

• Demostrar comprensión del propósito de la econometría;

• Demostrar conocimientos y comprensión básicos de la Re lineal clásica. modelo de


progresión;
1.4 PRERREQUISITOS 3

• Demostrar conocimiento y comprensión de los supuestos y propiedades del modelo clásico de regresión
lineal;

• Demostrar capacidad para formular y evaluar hipótesis estadísticas comprobables. ses utilizando el modelo
de regresión lineal y software econométrico;

• Demostrar capacidad para interpretar cuidadosamente los resultados de la regresión;

• Demostrar conocimiento y comprensión del efecto sobre los resultados de regresión cuando se violan los
supuestos del modelo clásico de regresión lineal; y

• Demostrar conocimiento y comprensión del análisis econométrico para fines de toma de decisiones de
gestión.

1.4 Requisitos previos


La econometría es un campo interdisciplinario. Utiliza conocimientos de economía y negocios. ness en la selección
de las variables y modelos relevantes, utiliza métodos informáticos para recopilar los datos y resolver modelos
econométricos, y utiliza estadísticas y matemáticas. emática para desarrollar métodos econométricos que sean
apropiados para los datos y el problema en cuestión. En consecuencia, en este curso se supone que los
estudiantes tienen cierta familiaridad con los conceptos básicos de diferenciaciones (cálculo), estadística básica
Conceptos cal (variables aleatorias, muestra, población, medidas de tendencia central, medidas de dispersiones,
medidas de asimetría y curtosis, etc., métodos de estimación ción, propiedades de los estimadores, pruebas de
hipótesis, intervalos de confianza). La mayoría de los textos de econometría contienen estos y más requisitos
previos en sus apéndices para facilitar su consulta.

1.5 Recursos
Este es uno de los cursos estándar que se ofrecen en la mayoría de las universidades del mundo. Como resultado,
obtener apuntes de conferencias, ejemplos de preguntas de exámenes con sus soluciones, etc. es relativamente
fácil si se tiene acceso a Internet. La mejor manera de utilizar Internet no es buscar el material de todo el curso; en
cambio, se recomienda a los estudiantes que sigan de cerca los temas de las notas de clase y luego busquen
material complementario sobre los temas que consideren que necesitan material adicional.
Finalmente, es importante indicar que, como es habitual, los cursos cuantitativos sólo se pueden dominar
haciendo más y más ejercicios. En consecuencia, se recomienda a los estudiantes que prueben todos los
problemas enumerados al final de este módulo y también practiquen con datos (sus propios datos o los que
acompañan a los libros de texto y los datos disponibles en línea del Banco Mundial, el FMI y otras instituciones de
investigación y enseñanza). Para obtener información adicional
Las fuentes visitan el sitio web del curso en Sitio web del curso:
https://sites.google.com/site/sisayrsenbeta/home/econometrics .
Chapter 2

Introducción a la econometría

En este capítulo analizamos algunas cuestiones básicas de la econometría aplicada. El curso supone que está
familiarizado con los conceptos básicos de estadística, como la estadística descriptiva e inferencial, y algunos
conceptos sobre probabilidad. La econometría desempeña varias funciones en términos de previsión y análisis de
datos y problemas reales. Sin embargo, en el centro de estos roles está el deseo de precisar las magnitudes de los
efectos y probar su importancia. La teoría económica a menudo señala la dirección de una relación causal (si el
ingreso aumenta, podemos esperar que aumente el consumo), pero la teoría rara vez sugiere una magnitud
exacta.

Sin embargo, en un contexto político o empresarial, tener una idea clara de la magnitud de un efecto puede
ser extremadamente importante, y este es el ámbito de la econometría.
La toma de decisiones en los negocios y la economía suele estar respaldada por el uso de información
cuantitativa. La econometría se ocupa de resumir la información de datos relevante por medio de un modelo. Estos
modelos econométricos ayudan a comprender la relación entre variables económicas y empresariales y a analizar
los posibles efectos de las decisiones.
La econometría se fundó como disciplina científica alrededor de 1930. En los primeros años, la mayoría de las
solicitudes trataban de cuestiones macroeconómicas.
para ayudar a los gobiernos y a las grandes empresas a tomar sus decisiones a largo plazo.

Figura 2.1: Econometría y su interacción con otras ciencias


Hoy en día la econometría constituye una herramienta indispensable para modelar la realidad empírica en casi
todas las disciplinas económicas y empresariales. Hay tres razones principales para esta creciente atención a los
datos factuales y a los modelos econométricos. La teoría económica a menudo no proporciona la información
cuantitativa que se necesita en la toma de decisiones prácticas. Se encuentran disponibles datos cuantitativos
relevantes en muchas disciplinas económicas y comerciales. Los modelos realistas pueden resolverse fácilmente

4
2.1 ¿QUÉ ES LA ECONOMÉTRICA? 5

mediante técnicas econométricas modernas para respaldar las decisiones cotidianas de economistas y gerentes
de empresas.
En áreas como finanzas y marketing, los datos cuantitativos (sobre movimientos de precios, patrones de
ventas, etc.) se recopilan de forma regular, semanal, diaria o incluso cada fracción de segundo. También hay
mucha información disponible en microeconomía (por ejemplo, sobre el comportamiento de gasto de los hogares).
Se han desarrollado técnicas econométricas para tratar todo tipo de información. mación. La econometría es
un campo interdisciplinario. Utiliza conocimientos de la economía y los negocios para seleccionar las variables y
modelos relevantes, utiliza métodos informáticos para recopilar datos y resolver modelos econométricos, y utiliza
estadísticas. ticas y matemáticas para desarrollar métodos econométricos que sean apropiados para los datos y el
problema en cuestión. La interacción de estas disciplinas en la modelización econométrica se resume en el
siguiente diagrama.

Figura 2.2: La econometría como campo interdisciplinario


2.1 ¿Qué es la econometría?
La econometría -literalmente, "medición económica"- es la medición y el análisis cuantitativo de fenómenos
económicos y comerciales reales.
Intenta cuantificar la realidad económica y cerrar la brecha entre el mundo abstracto de la teoría económica y
el mundo real de la actividad humana.
Usos de la econometría: La econometría tiene tres usos principales:
1. describiendo la realidad económica
2. probar hipótesis sobre la teoría y la política económicas
3. pronosticar la actividad económica futura
De estos tres usos, el más simple de la econometría es la descripción.
Podemos utilizar la econometría para cuantificar la actividad económica y medir el efecto marginal. Tiene
6 CAPÍTULO 2 INTRODUCCIÓN A LA ECONOMÉTRICA

efectos porque la econometría nos permite estimar números y ponerlos en ecuaciones que antes sólo contenían
símbolos abstractos.
Por ejemplo, la demanda del consumidor de un producto particular a menudo puede considerarse como una
relación entre la cantidad demandada ( Q ) y el precio del producto ( P ), el precio de un sustituto ( Ps ) y el ingreso
disponible ( Yd ).
Para la mayoría de los bienes, se espera que la relación entre consumo e ingreso disponible sea positiva,
porque un aumento en el ingreso disponible estará asociado con un aumento en el consumo del producto.
En realidad, la econometría nos permite estimar esa relación con base en el consumo, los ingresos y los
precios pasados.
En otras palabras, una relación funcional general y puramente teórica como:

Q= s 0 + s 1 P + s 2 P s + s 3 Y d (2.1)

se puede convertir en una ecuación estimada como:

Q = 27:7 ^ 0:11P + 0:03P s + 0:23Y d (2.2)

El número 0,23 se denomina coeficiente de regresión estimado y es la capacidad de estimar estos coeficientes
lo que hace que la econometría sea valiosa. El segundo uso de la econometría es la prueba de hipótesis; la
evaluación de teorías alternativas con cuantificaciones evidencia tativa. Gran parte de la economía implica
construir modelos teóricos y contrastarlos con la evidencia, y la prueba de hipótesis es vital para ese enfoque
científico. Por ejemplo, se podría probar la hipótesis de que el producto de la Ecuación 1 es lo que los economistas
llaman un bien normal (aquel cuya cantidad demandada aumenta cuando aumenta el ingreso disponible). Esto se
puede hacer aplicando varias pruebas estadísticas al coeficiente estimado (0,23) del ingreso disponible ( Y ) en la d

Ecuación 2.
A primera vista, la evidencia parecería apoyar esta hipótesis, porque el signo del coeficiente es positivo, pero
habría que investigar la "significancia estadística" de esa estimación antes de poder justificar tal conclusión.
Aunque el coeficiente estimado es positivo, como se esperaba, puede no ser lo suficientemente diferente de cero
para convencernos de que el verdadero coeficiente es realmente positivo. El tercer y más difícil uso de la
econometría es pronosticar o predecir lo que probablemente sucederá el próximo trimestre, el próximo año o en el
futuro, basándose en lo que sucedió en el pasado. Por ejemplo, los economistas utilizan modelos econométricos
para hacer pronósticos de variables como las ventas, las ganancias, el Producto Interno Bruto (PIB) y la tasa de
inflación. La precisión de tales pronósticos depende en gran medida del grado en que el pasado sea una buena
guía para el futuro.
Los líderes empresariales y los políticos tienden a estar especialmente interesados en este uso de la
econometría porque necesitan tomar decisiones sobre el futuro y el castigo por equivocarse (quiebra para el
empresario y derrota política para el empresario). didado) es alto. En la medida en que la econometría pueda
arrojar luz sobre el impacto de sus políticas, los líderes empresariales y gubernamentales estarán mejor equipados
para tomar decisiones. decisiones. Por ejemplo, si el presidente de una empresa que vendió el producto modelado
en la Ecuación 1 quisiera decidir si aumentar los precios, se podrían calcular y comparar pronósticos de ventas con
y sin aumento de precio para ayudar a tomar esa decisión.
En el análisis econométrico empírico se siguen los siguientes pasos:
1. especificando los modelos o relaciones a estudiar
2.1 ¿QUÉ ES LA ECONOMÉTRICA? 7

2. Recopilar los datos necesarios para cuantificar los modelos.


3. cuantificar los modelos con los datos
Las especificaciones utilizadas en el paso 1 y las técnicas utilizadas en el paso 3 difieren ampliamente entre
disciplinas y dentro de ellas. Elegir la mejor especificación para un modelo determinado es una habilidad basada
en la teoría que a menudo se denomina el "arte" de la econometría. Hay muchos enfoques alternativos para
cuantificar la misma ecuación y cada enfoque puede producir resultados algo diferentes. La elección del enfoque
se deja en manos del econometrista individual (el investigador que utiliza la econometría), pero cada investigador
debería poder justificar esa elección.

2.2 ¿Qué es el análisis de regresión?


El término regresión fue introducido por Francis Galton. En un famoso artículo, Galton descubrió que, aunque
había una tendencia entre los padres altos a tener hijos altos y entre los padres bajos a tener hijos bajos, la
estatura promedio de los niños nacidos de padres de una estatura determinada tendía a moverse o "regresar"
hacia la misma altura. Estatura media del conjunto de la población. En otras palabras, la altura de los hijos de
padres inusualmente altos o inusualmente bajos tiende a acercarse a la altura promedio de la población. La ley de
regresión universal de Galton fue confirmada por su amigo Karl Pearson, quien recopiló más de mil registros de
alturas de miembros de grupos familiares. Encontró que la altura promedio de los hijos de un grupo de padres altos
era menor que
2.2 ¿QUÉ ES EL ANÁLISIS DE REGRESIÓN? 8

la altura de sus padres y la altura promedio de los hijos de un grupo de padres bajos era mayor que la altura de
sus padres, "haciendo así una regresión" tanto de los hijos altos como de los bajos hacia la altura promedio de
todos los hombres. En palabras de Galton, esto fue "una regresión a la mediocridad".
Los econometristas utilizan el análisis de regresión para hacer estimaciones cuantitativas de la economía.
relaciones económicas que anteriormente han sido de naturaleza completamente teórica. Af En definitiva,
cualquiera puede afirmar que la cantidad demandada de un bien normal aumentará si el precio de ese bien
disminuye (manteniendo todo lo demás constante), pero no mucha gente puede poner números específicos en una
ecuación y estimar en cuántas unidades la cantidad demandada. aumentará por cada Birr en el que el precio
disminuya. Para predecir la dirección del cambio es necesario conocer la teoría económica y las características
generales del producto en cuestión.
Sin embargo, para predecir la magnitud del cambio se necesita una muestra de datos y una forma de estimar
la relación. El método más utilizado para estimar dicha relación en econometría es el análisis de regresión.
El análisis de regresión es una técnica estadística que intenta "explicar" el movimiento mentos en una variable,
la variable dependiente, como una función de los movimientos en un conjunto de otras variables, llamadas
variables independientes (o explicativas), a través de la cuantificación de una o más ecuaciones. Por ejemplo, en la
Ecuación 1:

Q= s 0 + s 1 P + s 2 P s + s 3 Y d (2.3)

Q es la variable dependiente y P , P e Y son las variables independientes.


S d

El análisis de regresión es una herramienta natural para los economistas porque la mayoría (aunque no todas)
las proposiciones económicas pueden expresarse en este tipo de ecuaciones. Por ejemplo, la cantidad demandada
(variable dependiente) es función del precio, los precios de los sustitutos y el ingreso (variables independientes).
Gran parte de la economía y los negocios se ocupan de proposiciones de causa y efecto. Si el precio de un bien
aumenta una unidad, entonces la cantidad demandada disminuye en promedio una determinada cantidad,
dependiendo de la elasticidad precio de la demanda (definida como el cambio porcentual en la cantidad
demandada causado por un aumento del uno por ciento en el precio). ).
De manera similar, si la cantidad de capital empleada aumenta en una unidad, entonces la producción
aumenta en una cierta cantidad, denominada productividad marginal del capital. propuesta Proposiciones como
estas plantean una relación si-entonces o causal que postula lógicamente que los movimientos de una variable
dependiente están determinados por movimientos en una serie de variables independientes específicas. Sin
embargo, no se deje engañar por las palabras "dependiente" e "independiente". Aunque muchas relaciones
económicas son causales por su propia naturaleza, un resultado de regresión, por significativo que sea
estadísticamente, no puede probar la causalidad. Lo único que puede hacer el análisis de regresión es comprobar
si existe una relación cuantitativa significativa. Los juicios sobre la causalidad también deben incluir una buena dosis
de teoría económica y sentido común. El análisis de regresión no puede
2.4 EL TÉRMINO DE ERROR ESTOCÁSTICO 9

confirmar la causalidad; sólo puede poner a prueba la fuerza y la dirección de las relaciones cuantitativas
involucradas.

2.3 Modelos lineales de una sola ecuación


El modelo de regresión de una sola ecuación más simple es:

Y= s 0 + s 1 X (2.4)

Esta ecuación establece que Y , la variable dependiente, es una función lineal de ecuación única de X , la
variable independiente. El modelo es un modelo de una sola ecuación porque es la única ecuación especificada.
El modelo es lineal porque si trazaras la ecuación anterior sería una línea recta en lugar de una curva. El
B s son los coeficientes que determinan las coordenadas de la
recta en cualquier punto.
B 0 es el término constante o intercepto; indica el valor de Y cuando X es igual a cero.
B 1 es el coeficiente de pendiente e indica la cantidad en la que Y cambiará cuando X aumenta en una
unidad (consulte la figura en la siguiente diapositiva). Como puede verse en el diagrama, la ecuación anterior es
lineal. El coeficiente de pendiente,
B 1 , muestra la respuesta de
Y a un aumento de una unidad en X . Gran parte del énfasis en el análisis de regresión está en los coeficientes de
pendiente.

2.4 El término de error estocástico


Además de la variación en la variable dependiente ( Y ) que es causada por la variable independiente variable dent
( X ), casi siempre hay variación que también proviene de otras fuentes. Esta variación adicional proviene en parte
de variables explicativas omitidas (por ejemplo, X 2 y X 3 ). Sin embargo, incluso si se agregan estas variables
adicionales a la ecuación, todavía habrá alguna variación en Y que el modelo simplemente no puede explicar. Esta
variación probablemente proviene de fuentes como influencias omitidas, errores de medición, forma funcional
10 CAPÍTULO 2 INTRODUCCIÓN A LA ECONOMÉTRICA

incorrecta o puramente aleatoria. contar sucesos impredecibles . Por azar nos referimos a algo cuyo valor está
determinado enteramente por el azar.
Los econometristas admiten la existencia de esa variación inherente e inexplicable («error») al incluir
explícitamente un término de error estocástico (o aleatorio) en sus modelos de regresión. Un término de error
estocástico es un término que se agrega a una ecuación de regresión para introducir toda la variación en Y que no
puede explicarse por los X incluidos. Es, en efecto, un símbolo de la ignorancia o incapacidad del econometrista
para modelar todos los movimientos de la variable dependiente.

2.4.1 La importancia del término de perturbación estocástica


El término de perturbación €i es un sustituto de todas aquellas variables que se omiten en el modelo pero que
colectivamente afectan a Y. La pregunta obvia es: ¿por qué no introducir explícitamente estas variables en el
modelo? Dicho de otro modo, ¿por qué no desarrollar un modelo de regresión múltiple con tantas variables como
sea posible? Las razones son muchas.
1. Vaguedad de la teoría: La teoría, si la hay, que determina el comportamiento de Y puede ser, y a menudo
es, incompleta. Podríamos saber con certeza que el ingreso semanal X influye en el gasto de consumo semanal Y ,
pero podríamos ignorar o no estar seguros acerca de las otras variables que afectan a Y. Por tanto, €i puede
utilizarse como sustituto de todas las variables excluidas u omitidas del modelo.
2. Falta de disponibilidad de datos: incluso si sabemos cuáles son algunas de las variables excluidas y, por lo
tanto, consideramos una regresión múltiple en lugar de una regresión simple, es posible que no tengamos
información cuantitativa sobre estas variables. Es una experiencia común en el análisis empírico que los datos que
idealmente nos gustaría tener a menudo no están disponibles. Por ejemplo, en principio podríamos introducir la
riqueza familiar como una variable explicativa además de la variable de ingresos para explicar el consumo
familiar. gastos de ción. Pero, lamentablemente, por lo general no se dispone de información sobre el patrimonio
familiar. Por lo tanto, podemos vernos obligados a omitir la variable riqueza de nuestro modelo a pesar de su gran
relevancia teórica para explicar el gasto de consumo.
3. Variables centrales versus variables periféricas: supongamos en nuestro ejemplo de consumo-ingreso que
además del ingreso X 1 , el número de hijos por familia X 2 , el sexo X 3 , la religión X 4 , la educación X 5 y la región
geográfica X 6 también a§ ect consumo ex pendición. Pero es muy posible que la influencia conjunta de todas o
algunas de estas variables sea tan pequeña y, en el mejor de los casos, no sistemática o aleatoria, que como
cuestión práctica y por consideraciones de costos no convenga introducirlas explícitamente en el modelo. Es de
esperar que su efecto combinado pueda tratarse como una variable aleatoria ei.

4. Aleatoriedad intrínseca en el comportamiento humano: incluso si logramos introducir todas las variables
relevantes en el modelo, es probable que haya cierta aleatoriedad "intrínseca" en los Yis individuales que no se
puede explicar por mucho que lo intentemos. Las perturbaciones, las € ís, muy bien pueden reflejar esta
aleatoriedad intrínseca.
5. Variables proxy deficientes: aunque el modelo de regresión clásico supone que las variables Y y X se miden
con precisión, en la práctica los datos pueden estar plagados de errores de medición. Consideremos, por ejemplo,
la conocida teoría de la función de consumo de Milton Friedman. Considera el consumo permanente ( Y ) como p

una función del ingreso permanente ( X p


). Pero como los datos sobre estas variables no son directamente
observables, en la práctica utilizamos variables proxy, como el consumo actual ( Y ) y el ingreso actual ( X ), que
2.4 EL TÉRMINO DE ERROR ESTOCÁSTICO 11

pueden ser observables. Dado que Y y X observados pueden no ser iguales Yp y a Xp


, existe el problema de los
errores de medición. El término de perturbación u puede representar en este caso también errores de medición.
Como veremos en un capítulo posterior, si existen tales errores de medición, pueden tener serias implicaciones
para estimar los coeficientes de regresión, el
pís .
6. Principio de parsimonia: Siguiendo la navaja de Occamí, nos gustaría mantener nuestro modelo de
regresión lo más simple posible. Si podemos explicar el comportamiento de Y "sustancialmente" con dos o tres
variables explicativas y si nuestra teoría no es lo suficientemente sólida como para sugerir qué otras variables
podrían incluirse, ¿por qué introducir más variables? Deje que ui represente todas las demás variables. Por
supuesto, no deberíamos excluir variables relevantes e importantes sólo para mantener simple el modelo de
regresión.
7. Forma funcional incorrecta: incluso si tenemos variables teóricamente correctas ex Explicar un fenómeno e
incluso si podemos obtener datos sobre estas variables, muy a menudo no conocemos la forma de la relación
funcional entre el regresante y los regresores. ¿Es el gasto de consumo una función lineal (invariable) de en ¿Ven
o una función no lineal (invariable)? Si es lo primero, Y = i

p 1 +p 2 X i + € i

es la relación funcional adecuada entre Y y X , pero si es la última, Y i = p 1 + p 2 X i + p 3 X i + € i puede ser la forma


funcional correcta. En mod de dos variables De lo contrario, la forma funcional de la relación a menudo puede
juzgarse a partir del diagrama de dispersión. Pero en un modelo de regresión múltiple no es fácil determinar la
función apropiada. forma tradicional, ya que gráficamente no podemos visualizar diagramas de dispersión en
múltiples dimensiones.
Por todas estas razones, las perturbaciones estocásticas ui asumen un papel extremadamente crítico en el
análisis de regresión, que veremos a medida que avancemos.
La adición de un término de error estocástico € a la ecuación anterior da como resultado una ecuación de
regresión típica:
Y=p0+p1X+€ (2.5)

Se puede considerar que esta ecuación tiene dos componentes, el componente determinista y el componente
estocástico o aleatorio. La expresion
p 0 + p 1 X se denomina
componente determinista de la ecuación de regresión porque indica el valor de Y que está determinado por un
valor dado de X , que se supone que es

no estocástico. Este componente determinista también puede considerarse como el valor esperado de Y dado X ,
el valor medio de los Y asociados con un valor particular de X. Por ejemplo, si la altura promedio de todas las niñas
de 13 años es 175 CM, entonces 175 CM es el valor esperado de la altura de una niña dado que tiene 13 años. La
parte determinista de la ecuación se puede escribir:

E (Y j X) = s 0 + s 1 X (2.6)

que establece que el valor esperado de Y dado X , denotado como E (Y j X) , es una función lineal de la variable
independiente (o variables si hay más de una).
12 CAPÍTULO 2 INTRODUCCIÓN A LA ECONOMÉTRICA

Desafortunadamente, es poco probable que el valor de Y observado en el mundo real sea exactamente igual al
valor esperado determinista E (Y j X) . Después de todo, no todas las niñas de 13 años miden 175 cm. Como
resultado, se debe añadir el elemento estocástico € a la ecuación:
Y = E (Y j X) + € = 3 0 +3 1 X + € (2.7)

Para tener una mejor idea de estos componentes del término de error estocástico, pensemos en una función
de consumo (consumo agregado en función de ag renta disponible agregada). En primer lugar, el consumo en un
año determinado puede haber sido menor de lo que habría sido debido a la incertidumbre sobre el curso futuro de
la economía. Dado que esta incertidumbre es difícil de medir, es posible que no haya ninguna variable que mida la
incertidumbre del consumidor en la ecuación. En tal caso, el impacto de la variable omitida (incertidumbre del
consumidor) probablemente terminaría en el término de error estocástico.
En segundo lugar, la cantidad de consumo observada puede haber sido diferente del nivel real de consumo en
un año particular debido a un error (como un error de muestreo) en la medición del consumo en las Cuentas
Nacionales de Ingreso. En tercer lugar, la función de consumo subyacente puede ser no lineal, pero se puede
estimar una función de consumo lineal.

2.5 Algunos puntos sobre notaciones


Es necesario ampliar nuestra notación de regresión para permitir la posibilidad de más de una variable
independiente e incluir referencias al número de observaciones. Una observación típica (o unidad de análisis) es
una persona, un año o un país. Por ejemplo, una serie de observaciones anuales que comienza en 1985 tendría Y
1 = Y para 1985, Y 2 para 1986, etc. Si incluimos una referencia específica a las observaciones, el modelo de
regresión lineal de una sola ecuación puede escribirse como:

Yi=^0+^1Xi+€i (yo=1;2;:::;N) (2.8)

donde: Y i = la i -ésima
observación de la variable dependiente, X i = la i- ésima
observación ción de la variable
independiente € = la i- i
ésima
observación del término de error estocástico B 0 , B 1 = los coeficientes de regresión, N =
2.4 EL TÉRMINO DE ERROR ESTOCÁSTICO 13

el número de observaciones. Es decir, se supone que el modelo de regresión se cumple para cada observación.
Los coeficientes no cambian de una observación a otra, pero los valores de Y , X y € sí. Una segunda adición
notacional permite más de una variable independiente. Dado que es probable que más de una variable
independiente tenga un efecto sobre la variable dependiente, nuestra notación debería permitir agregar estas X
explicativas adicionales. Si definimos:
X 1 i = la iésima observación de la primera variable independiente
X 2 i = la iésima observación de la segunda variable independiente
X 3 i = la iésima observación de la tercera variable independiente, entonces las tres variables se pueden
expresar como determinantes de Y.
La ecuación resultante del proceso descrito anteriormente se denomina modelo de regresión lineal
multivariado (más de una variable independiente):

Y i = ^ 0 + ^ 1 X 1 i + ^ 1 X 2 i + ^ 3 X 3 i + € i (i = 1; 2;:::; N) (2.9)

El significado del coeficiente de regresión


B 1 en esta ecuación es el impacto de un aumento de una
unidad en X 1 sobre la variable dependiente Y , manteniendo constantes X 2 y X 3 . Similarmente,
B 2 da el impacto de un aumento de una unidad en X 2 sobre Y , manteniendo constantes X 1 yX 3 .
Estos coeficientes de regresión multivariada (que son paralelos por naturaleza a las derivadas parciales en cálculo)
sirven para aislar el impacto en Y de un cambio en una variable del impacto en Y de los cambios en las otras
variables. Esto es posible porque la regresión multivariada tiene en cuenta los movimientos de X 2 yX 3 cuando
estima el coeficiente de X 1 . El resultado es bastante similar al que obtendríamos si fuéramos capaces de realizar
experimentos de laboratorio controlados en los que sólo se cambiara una variable a la vez.
Sin embargo, en el mundo real es muy difícil gestionar experiencias económicas controladas. mentos, porque
muchos factores económicos cambian simultáneamente, a menudo en direcciones opuestas. Por tanto, la
capacidad del análisis de regresión para medir el impacto de una variable Poder sobre la variable dependiente,
manteniendo constante la influencia de las otras variables en la ecuación, es una tremenda ventaja. Tenga en
cuenta que si una variable no se incluye en una ecuación, entonces su impacto no se mantiene constante en la
estimación de los coeficientes de regresión. Un ejemplo de regresión multivariada: supongamos que queremos
entender cómo se determinan los salarios en un campo en particular, tal vez porque pensamos que podría haber
discriminación en ese campo. El salario de un trabajador sería la variable dependiente (SALARIO), pero ¿cuáles
serían buenas variables independientes?
¿Qué variables influirían en el salario de una persona en un campo determinado? Bueno, hay literalmente
docenas de posibilidades razonables, pero tres de las más comunes son la experiencia laboral (EXP), la educación
(EDU) y el género (GEND) del trabajador, así que usémoslas. Para crear una ecuación de regresión con estas
variables, redefiniríamos las variables en la ecuación anterior para cumplir con nuestras definiciones:
Y = SALARIO = el salario del trabajador
X 1 =EXP=los años de experiencia laboral del trabajador
X 2 =EDU=los años de educación más allá de la escuela secundaria del trabajador
X 3 =GEND=el sexo del trabajador (1 =hombre y 0=mujer)
La última variable, GEND, es inusual porque sólo puede tomar dos valores, 0 y 1; Este tipo de variable se
llama variable ficticia y es extremadamente útil cuando queremos cuantificar un concepto que es inherentemente
14 CAPÍTULO 2 INTRODUCCIÓN A LA ECONOMÉTRICA

cualitativo (como el género). Si sustituimos estas definiciones en la ecuación anterior, obtenemos:

SALARIO EDAD i = 6 0 + 6 1 EXP i + 6 2 EDU i + 6 3 GEND i + e i (2.10)

Esta ecuación especifica que el salario de un trabajador es una función de la experiencia, la educación y el
género de ese trabajador. En tal ecuación, ¿cuál sería el significado de
p 1 ser? Algunos de ustedes adivinarán que
p 1 mide la cantidad en que aumenta el salario promedio por un año
adicional de experiencia, pero tal suposición pasaría por alto el hecho de que hay otras dos variables
independientes en la ecuación que también explican los salarios. La respuesta correcta es que
p 1 nos da el impacto en los salarios de un aumento de un año en la
experiencia, manteniendo constante la educación y el género. Esta es una diferencia significativa, porque permite a
los investigadores controlar factores de complicación específicos sin realizar experimentos controlados. Antes de
concluir esta sección, vale la pena señalar que el modelo de regresión multivariado general con K variables
independientes se escribe como:
Y yo = p 0 +p 1 X 1 yo + p 2 X 2 + ::: + p k X ki + c yo
yo (2.11)

donde i va de 1 a N e indica el número de observación. Si la muestra consta de una serie de años o meses
(llamada serie temporal), entonces el subíndice i generalmente se reemplaza por una t para indicar el tiempo.

2.6 La ecuación de regresión estimada


Una vez que se ha decidido una ecuación específica, se debe cuantificar (con estimación). parámetros/coe¢
cientes acoplados). Esta versión cuantificada de la ecuación de regresión teórica se llama ecuación de regresión
estimada y se obtiene a partir de una muestra de datos para Xs e Ys reales. Aunque la ecuación teórica es de
naturaleza puramente abstracta:
Y= 6 0 + 6 1 X yo + mi yo (2.12)

la ecuación de regresión estimada contiene números reales:


2.4 EL TÉRMINO DE ERROR ESTOCÁSTICO 15

Y = 103:40 + 6:38X (2.13)

2.7 Estructuras de datos económicos


Existen varios tipos de estructuras de datos con las que se pueden realizar análisis económicos/econométricos.
Las estructuras de datos más importantes encontradas son las siguientes:

1. Datos de sección transversal

2. Datos de sección transversal agrupados

3. Datos de series de tiempo

4. Datos de panel o longitudinales

5. Datos experimentales

2.7.1 Datos transversales

Un conjunto de datos transversales consiste en una muestra de individuos, hogares, empresas, ciudades, estados,
países o una variedad de otras unidades, tomadas en un momento dado. En ocasiones, los datos de todas las
unidades no corresponden exactamente al mismo período de tiempo. Por ejemplo, se pueden encuestar varias
familias durante diferentes semanas dentro de un año. En un análisis transversal puro, ignoraríamos cualquier
diferencia menor en el momento en que se recopilaron los datos. Si se encuestara a un conjunto de familias
durante diferentes semanas del mismo año, todavía lo consideraríamos como un conjunto de datos transversales.
Una característica importante de los datos transversales es que a menudo podemos suponer que se
obtuvieron mediante muestreo aleatorio de la población subyacente. Por ejemplo, si obtenemos información sobre
salarios, educación, experiencia y otros caracteres características seleccionando aleatoriamente a 500 personas
de la población trabajadora, entonces tenemos una muestra aleatoria de la población de todos los trabajadores. El
muestreo aleatorio es el esquema de muestreo que se cubre en los cursos de introducción a la estadística y
simplifica el análisis de datos transversales. En el Apéndice C se incluye una revisión del muestreo aleatorio.
A veces, el muestreo aleatorio no es apropiado como supuesto para analizar datos transversales. Por ejemplo,
supongamos que estamos interesados en estudiar los factores que influyen en la acumulación de riqueza familiar.
Podríamos encuestar una muestra aleatoria de familias, pero algunas familias podrían negarse a declarar su
riqueza. Si, por ejemplo, las familias más ricas tienen menos probabilidades de revelar su riqueza, entonces la
muestra resultante sobre riqueza no es una muestra aleatoria de la población de todas las familias.
Otra violación del muestreo aleatorio ocurre cuando tomamos muestras de unidades que son grandes en
relación con la población, particularmente unidades geográficas. El problema potencial en tales casos es que la
población no es lo suficientemente grande como para Supongamos que las observaciones son sorteos
independientes. Por ejemplo, si queremos explicar la nueva actividad empresarial en los estados como una función
16 CAPÍTULO 2 INTRODUCCIÓN A LA ECONOMÉTRICA

de los salarios, los precios de la energía y las empresas. Las tasas de interés y los impuestos a la propiedad, los
servicios prestados, la calidad de la fuerza laboral y otras características estatales, es poco probable que las
actividades comerciales en estados cercanos entre sí sean independientes. Resulta que los métodos
econométricos que analizamos funcionan en tales situaciones, pero a veces es necesario perfeccionarlos. En su
mayor parte, ignoraremos las complejidades que surgen al analizar tales situaciones y trataremos estos problemas
en un marco de muestreo aleatorio, incluso cuando no sea técnicamente correcto hacerlo. Los datos transversales
se utilizan ampliamente en economía y otras ciencias sociales. En economía, el análisis de datos transversales
está estrechamente alineado con los campos de microeconomía aplicada, como la economía laboral, la finanzas
públicas estatales y locales, en organización industrial, economía urbana, demografía y economía de la salud. Los
datos sobre individuos, hogares, empresas y ciudades en un momento dado son importantes para probar hipótesis
microeconómicas y evaluar políticas económicas.

2.7.2 Datos de series de tiempo


Un conjunto de datos de series temporales consta de observaciones de una variable o varias variables a lo largo
del tiempo. Ejemplos de datos de series de tiempo incluyen precios de acciones, oferta monetaria, índice de
precios al consumidor, PIB, tasas anuales de homicidio y ventas de automóviles. Debido a que los acontecimientos
pasados pueden influir en los acontecimientos futuros y en las ciencias sociales prevalecen los retrasos en el
comportamiento, el tiempo es una dimensión importante en un conjunto de datos de series temporales. A
diferencia de la disposición de datos transversales, el orden cronológico de las observaciones en una serie
temporal transmite información potencialmente importante.
Una característica clave de los datos de series temporales que los hace más difíciles de analizar que los datos
transversales es que rara vez, o nunca, se puede suponer que las observaciones económicas son independientes
a lo largo del tiempo. La mayoría de las series económicas y de otro tipo están relacionadas, a menudo
fuertemente relacionadas, con sus historias recientes. Por ejemplo, saber algo sobre el PIB del último trimestre nos
dice bastante sobre el rango probable del PIB durante este trimestre, porque el PIB tiende a permanecer bastante
estable de un trimestre al siguiente. Aunque la mayoría de los procedimientos econométricos se pueden utilizar
tanto con Dados los datos seccionales y de series temporales, es necesario hacer más en la especificación de
modelos econométricos para datos de series temporales antes de que se puedan justificar los métodos
econométricos estándar. Además, se han desarrollado modificaciones y adornos a las técnicas econométricas
estándar para tener en cuenta y explotar la naturaleza dependiente de las series temporales económicas y abordar
otras cuestiones, como el hecho de que algunas variables económicas tienden a mostrar tendencias claras a lo
largo del tiempo.
Otra característica de los datos de series temporales que puede requerir atención especial es la frecuencia con
la que se recopilan. En economía, la frecuencia más común Las cies son diarias, semanales, mensuales,
trimestrales y anuales. Los precios de las acciones se registran a intervalos diarios (excepto sábados y domingos).
La oferta monetaria en la economía estadounidense se informa semanalmente. Muchas series macroeconómicas
se tabulan mensualmente, incluidas las tasas de inflación y desempleo. Otras series macro se registran con menor
frecuencia, como cada tres meses (cada trimestre). El PIB es un examen importante ejemplo de una serie
trimestral. Otras series temporales, como las tasas de mortalidad infantil de los estados de Estados Unidos, sólo
están disponibles anualmente.
Muchas series económicas semanales, mensuales y trimestrales muestran un mar fuerte patrón personal, que
2.4 EL TÉRMINO DE ERROR ESTOCÁSTICO 17

puede ser un factor importante en un análisis de series de tiempo. Por ejemplo, los datos mensuales sobre
viviendas iniciadas difieren entre meses simplemente debido a los cambios en las condiciones climáticas.

2.7.3 Secciones transversales agrupadas


Algunos conjuntos de datos tienen características tanto transversales como de series temporales. Por ejemplo,
supongamos que se realizan dos encuestas transversales de hogares en Estados Unidos, una en 1985 y otra en
1990. En 1985, se encuesta una muestra aleatoria de hogares para determinar variables como ingresos, ahorros,
tamaño de la familia, etc. En 1990, se toma una nueva muestra aleatoria de hogares utilizando las mismas
preguntas de la encuesta. Para aumentar el tamaño de nuestra muestra, podemos formar una sección transversal
combinada combinando los dos años.
Reunir secciones transversales de diferentes años suele ser una forma eficaz de analizar los efectos de una
nueva política gubernamental. La idea es recopilar datos de los años anteriores y posteriores a un cambio de
política clave. Como ejemplo, considérese el siguiente conjunto de datos sobre precios de la vivienda tomados en
1993 y 1995, antes y después de una reducción de los impuestos a la propiedad en 1994. Supongamos que
tenemos datos sobre 250 casas para 1993 y sobre 270 casas para 1995.
Las observaciones 1 a 250 corresponden a las casas vendidas en 1993, y obsérvese Las vaciones 251 a 520
corresponden a las 270 casas vendidas en 1995. Aunque el orden en el que almacenamos los datos no resulta
crucial, llevar la cuenta del año de cada observación suele ser muy importante. Es por eso que ingresamos el año
como una variable separada.
Una sección transversal agrupada se analiza de manera muy similar a una sección transversal estándar,
excepto que a menudo necesitamos tener en cuenta las diferencias seculares en las variables a lo largo del
tiempo. De hecho, además de aumentar el tamaño de la muestra, el objetivo de un análisis transversal conjunto
suele ser ver cómo una relación clave ha cambiado con el tiempo.

2.7.4 Datos de panel o longitudinales


Un conjunto de datos de panel (o datos longitudinales) consta de una serie de tiempo para cada cruce. miembro
seccional en el conjunto de datos. Como ejemplo, supongamos que tenemos el historial salarial, educativo y
laboral de un conjunto de personas seguido durante un período de 10 años. O podríamos recopilar información,
como datos financieros y de inversión, sobre el mismo conjunto de empresas durante un período de cinco años.
Los datos de panel también se pueden recopilar en unidades geográficas. Por ejemplo, podemos recopilar datos
para el mismo conjunto de condados de Estados Unidos sobre flujos de inmigración, tasas impositivas, tasas
salariales, gastos gubernamentales, etc., para los años 1980, 1985 y 1990.
La característica clave de los datos de panel que los distingue de una sección transversal agrupada es que se
siguen las mismas unidades transversales (individuos, Örms o condados en los ejemplos anteriores) durante un
período de tiempo determinado. Al igual que con una sección transversal pura, el orden en la sección transversal
de un conjunto de datos de panel no importa. Podríamos utilizar el nombre de la ciudad en lugar de un número,
pero suele resultar útil tener ambos.
Un segundo punto es que los dos años de datos de la ciudad 1 oll las dos primeras filas u observaciones. Las
observaciones 3 y 4 corresponden a la ciudad 2, y así sucesivamente. Como cada una de las 150 ciudades tiene
dos filas de datos, cualquier paquete de econometría considerará esto como 300 observaciones. Este conjunto de
18 CAPÍTULO 2 INTRODUCCIÓN A LA ECONOMÉTRICA

datos puede tratarse como una sección transversal agrupada, donde aparecen las mismas ciudades cada año.
Pero, como veremos en los capítulos 13 y 14, también podemos utilizar la estructura del panel para analizar
preguntas que no pueden responderse simplemente viéndolas como una sección transversal agrupada.

Debido a que los datos de panel requieren la replicación de las mismas unidades a lo largo del tiempo, los
conjuntos de datos de panel, especialmente aquellos sobre individuos, hogares y empresas, son más difíciles de
obtener. tain que las secciones transversales agrupadas. No es sorprendente que observar las mismas unidades a
lo largo del tiempo conduzca a varias ventajas sobre los datos transversales o incluso sobre los datos
transversales agrupados. El beneficio en el que nos centraremos en este texto es que tener múltiples
observaciones Las operaciones en las mismas unidades nos permiten controlar ciertas características no
observadas de individuos, Örms, etc. Como veremos, el uso de más de una observación puede facilitar la
inferencia causal en situaciones en las que inferir causalidad sería muy difícil si sólo estuviera disponible una
sección transversal. Una segunda ventaja de los datos de panel es que a menudo nos permiten estudiar la
importancia de los rezagos en el comportamiento o la re resultado de la toma de decisiones. Esta información
puede ser significativa porque se puede esperar que muchas políticas económicas tengan un impacto sólo
después de que haya pasado algún tiempo.
Causalidad y noción de Ceteris Paribus en el análisis econométrico
En la mayoría de las pruebas de teoría económica, y ciertamente para evaluar políticas públicas, el objetivo del
economista es inferir que una variable (como la educación) tiene un efecto causal sobre otra variable (como la
productividad de los trabajadores). Encontrar simplemente una asociación entre dos o más variables puede ser
sugerente, pero a menos que pueda establecerse la causalidad, rara vez resulta convincente.
La noción de ceteris paribus, que significa "otros factores (relevantes) son iguales", juega un papel importante
en el análisis causal. Esta idea ha estado implícita en algunas de nuestras discusiones anteriores, particularmente
en los ejemplos 1.1 y 1.2, pero hasta ahora no la hemos mencionado explícitamente. Probablemente recuerde de
la introducción a la economía que la mayoría de las cuestiones económicas son ceteris paribus por naturaleza. Por
ejemplo, en ana Al analizar la demanda de los consumidores, nos interesa conocer el efecto que tiene cambiar el
precio de un bien sobre su cantidad demandada, manteniendo al mismo tiempo todos los demás factores, como el
ingreso, los precios de otros bienes y los gustos individuales. Si no se consideran fijos otros factores, entonces no
podemos conocer el efecto causal de un cambio de precio sobre la cantidad demandada.
Mantener otros factores Öxed también es fundamental para el análisis de políticas. En el ejemplo de
capacitación laboral (Ejemplo 1.2), podríamos estar interesados en el efecto de otra semana de capacitación
laboral sobre los salarios, con todos los demás componentes iguales (en particular, educación y experiencia). Si
logramos mantener todos los demás factores relevantes fijos y luego encontrar un vínculo entre la capacitación
laboral y los salarios, podemos concluir que la capacitación laboral tiene un efecto causal sobre la productividad de
los trabajadores. Aunque esto puede parecer bastante simple, incluso en esta etapa inicial debería quedar claro
que, excepto en casos muy especiales, no será posible mantener literalmente todo lo demás igual. La pregunta
clave en la mayoría de los estudios empíricos es: ¿Se han considerado suficientes otros factores como para
defender la causalidad? Rara vez se evalúa un estudio econométrico sin plantear esta cuestión.
En las aplicaciones más serias, el número de factores que pueden afectar la variable de interés -como la
actividad criminal o los salarios- es inmenso, y el aislamiento de cualquier variable particular puede parecer un
esfuerzo inútil. Sin embargo, eventualmente veremos que, cuando se aplican cuidadosamente, los métodos
2.4 EL TÉRMINO DE ERROR ESTOCÁSTICO 19

econométricos pueden simular un experimento ceteris paribus.


En este punto, todavía no podemos explicar cómo se pueden utilizar los métodos econométricos para estimar
los efectos ceteris paribus, por lo que consideraremos algunos problemas que pueden surgir al intentar inferir la
causalidad en economía. No utilizamos ninguna ecuación en esta discusión. Para cada ejemplo, el problema de
inferir causalidad desaparece si se puede llevar a cabo un experimento apropiado. Por tanto, es útil describir cómo
podría estructurarse un experimento de este tipo y observar que, en la mayoría de los casos, obtener datos
experimentales no es práctico. También es útil pensar por qué los datos disponibles no tienen las características
importantes de un conjunto de datos experimental.
Por ahora confiamos en su comprensión intuitiva de términos como aleatorio, en dependencia y correlación,
todo lo cual debería resultar familiar en un curso de introducción a la probabilidad y la estadística. (Estos conceptos
se revisan en el Apéndice B.) Comenzamos con un ejemplo que ilustra algunas de estas cuestiones importantes.

Ejemplo 1 Efectos de los fertilizantes sobre el rendimiento de los cultivos: Algunos de los primeros estudios econométricos [por
ejemplo, Griliches (1957)] consideraron los efectos de los nuevos fertilizantes sobre el rendimiento de los cultivos. Supongamos
que el cultivo bajo consideración es la soja. Dado que la cantidad de fertilizante es sólo un factor que afecta los rendimientos
(algunos otros incluyen la lluvia, la calidad de la tierra y la presencia de parásitos), esta cuestión debe plantearse como una
cuestión ceteris paribus. Una forma de determinar el efecto causal de la cantidad de fertilizante sobre el rendimiento de la soja
es realizar un experimento, que podría incluir los siguientes pasos. Elija varias parcelas de tierra de un acre. Aplicar diferentes
cantidades de fertilizante a cada parcela y posteriormente medir los rendimientos; esto nos da un conjunto de datos
transversales. Luego, utilice métodos estadísticos (que se presentarán en el Capítulo 2) para medir la asociación entre los
rendimientos y las cantidades de fertilizante. Como se describió anteriormente, esto puede no parecer un muy buen
experimento porque no hemos dicho nada acerca de elegir parcelas de tierra que sean idénticas en todos los aspectos excepto
en la cantidad de fertilizante. De hecho, elegir terrenos con estas características no es factible: algunos de los factores, como la
calidad del terreno, ni siquiera pueden observarse plenamente. ¿Cómo sabemos que los resultados de este experimento
pueden usarse para medir el efecto ceteris paribus del fertilizante? La respuesta depende de las características específicas de
cómo se eligen las cantidades de fertilizante. Si los niveles de fertilizante se asignan a las parcelas independientemente de
otras características de la parcela que afectan el rendimiento (es decir, otras características de las parcelas se ignoran por
completo al decidir las cantidades de fertilizante), entonces estamos en el negocio.

El siguiente ejemplo es más representativo de las dificultades que surgen al inferir causalidad del anillo en
economía aplicada.

Ejemplo 2 Ejemplo de medición del retorno a la educación: Los economistas laborales y los responsables de la formulación de
políticas han estado interesados durante mucho tiempo en el "retorno a la educación". De manera un tanto informal, la pregunta
se plantea de la siguiente manera: si se elige a una persona de la población y se le da otro año de educación, educación,
¿cuánto aumentará su salario? Al igual que con los ejemplos anteriores, esta es una cuestión ceteris paribus, lo que implica
que todos los demás factores se mantienen Öxed mientras se le otorga a la persona otro año de educación.
Podemos imaginar a un planificador social diseñando un experimento para abordar esta cuestión, de la misma manera que
el investigador agrícola puede diseñar un experimento para estimar los efectos de los fertilizantes. Supongamos, por el
momento, que el planificador social tiene la capacidad de asignar cualquier nivel de educación a cualquier persona. ¿Cómo
emularía este planificador el modelo de fertilizantes? experimento en el ejemplo 1.3? El planificador elegiría un grupo de
personas y asignaría aleatoriamente a cada persona una cantidad de educación; algunas personas reciben educación de
20 CAPÍTULO 2 INTRODUCCIÓN A LA ECONOMÉTRICA

octavo grado, otras reciben educación secundaria, otras reciben dos años de colegiatura lege, etcétera. Posteriormente, el
planificador mide los salarios de este grupo de personas (donde asumimos que cada persona trabaja en un empleo). La gente
aquí es como las parcelas del ejemplo de los fertilizantes, donde la educación desempeña el papel del fertilizante y el salario
desempeña el papel del rendimiento de la soja. Como en el ejemplo 1.3, si los niveles de educación se asignan
independientemente de otras características que afectan la productividad (como la experiencia y la capacidad innata), entonces
un análisis que ignore estos otros factores arrojará resultados útiles. Nuevamente, será necesario hacer algún esfuerzo en el
Capítulo 2 para justificar esta afirmación; por ahora lo declaramos sin soporte.

A diferencia del ejemplo del rendimiento de fertilizantes, el experimento descrito en el Ejemplo 1.4 no es
factible. Las cuestiones éticas, por no mencionar los costos económicos, asociadas con la determinación aleatoria
de los niveles educativos de un grupo de individuos son obvias. Como cuestión logística, no podríamos darle a
alguien solo una educación de octavo grado si ya tiene un título universitario.
Aunque no se pueden obtener datos experimentales para medir el rendimiento de la educación, ciertamente
podemos recopilar datos no experimentales sobre los niveles educativos y los salarios de un grupo grande
mediante un muestreo aleatorio de la población de trabajadores. Estos datos están disponibles en una variedad de
encuestas utilizadas en economía laboral, pero estos conjuntos de datos tienen una característica que hace difícil
estimar el retorno ceteris paribus a la educación. La gente elige sus propios niveles de educación; por lo tanto, los
niveles educativos probablemente no estén determinados independientemente de todos los demás factores que
afectan los salarios. Este problema es una característica compartida por la mayoría de los conjuntos de datos no
experimentales.
Un factor que afecta el salario es la experiencia en la fuerza laboral. Dado que para obtener más educación
generalmente es necesario posponer el ingreso a la fuerza laboral, quienes tienen más educación generalmente
tienen menos experiencia. Por lo tanto, en un conjunto de datos no experimentales sobre salarios y educación, es
probable que la educación esté asociada negativamente con una variable clave que también afecta los salarios.
También se cree que las personas con más capacidades innatas suelen elegir niveles más altos de educación.
Dado que una mayor capacidad conduce a salarios más altos, nuevamente tenemos una correlación entre la
educación y un factor crítico que afecta los salarios.
Los factores omitidos de experiencia y capacidad en el ejemplo de los salarios tienen análogos en el ejemplo
de los fertilizantes. La experiencia es generalmente fácil de medir y, por lo tanto, es similar a una variable como la
lluvia. La capacidad, por otra parte, es nebulosa y difícil de cuantificar; es similar a la calidad de la tierra en el
ejemplo de los fertilizantes. Como veremos a lo largo de este texto, tener en cuenta otros factores observados,
como la experiencia, al estimar el efecto ceteris paribus de otra variable, como la educación, es relativamente
sencillo. También encontraremos que contabilizar los aspectos inherentemente no factores observables, como la
capacidad, es mucho más problemático. Es justo decir que muchos de los avances en los métodos econométricos
han intentado abordar factores no observados en los modelos econométricos.
Se puede establecer un paralelo Önal entre los ejemplos 1.3 y 1.4. Supongamos que en el ejemplo del
fertilizante, las cantidades de fertilizante no se determinaron enteramente al azar. En cambio, el asistente que
eligió los niveles de fertilizante pensó que sería mejor aplicar más fertilizante en las parcelas de tierra de mayor
calidad. (Los investigadores agrícolas deberían tener una idea aproximada de qué parcelas de tierra son de mejor
calidad, aunque tal vez no puedan cuantificar completamente las diferencias.) Esta situación es completamente
análoga a que el nivel de escolaridad se relacione con la capacidad no observada en Ejemplo 1.4. Como una
2.4 EL TÉRMINO DE ERROR ESTOCÁSTICO 21

mejor tierra conduce a mayores rendimientos y se utilizó más fertilizante en las mejores parcelas, cualquier
relación observada entre rendimiento y fertilizante podría ser espuria.
La dificultad para inferir la causalidad también puede surgir cuando se estudian datos con niveles de
agregación bastante altos, como lo muestra el siguiente ejemplo sobre las tasas de criminalidad en las ciudades.
Ejemplo El efecto de la aplicación de la ley en los niveles de criminalidad de la ciudad
La cuestión de cuál es la mejor manera de prevenir el delito ha estado, y probablemente seguirá estando,
entre nosotros durante algún tiempo. Una pregunta especialmente importante a este respecto es: ¿la presencia de
más agentes de policía en las calles disuade la delincuencia?
La pregunta ceteris paribus es fácil de plantear: si se elige una ciudad al azar y se le dan, digamos, diez
agentes de policía adicionales, ¿en cuánto caerían sus tasas de criminalidad? Otra forma de formular la pregunta
es: si dos ciudades son iguales en todos los aspectos, excepto que la ciudad A tiene diez policías más que la
ciudad B, ¿en cuánto diferirían las tasas de criminalidad de las dos ciudades?
Sería prácticamente imposible encontrar pares de comunidades idénticas en todos los aspectos. aspectos
excepto el tamaño de su fuerza policial. Afortunadamente, el análisis econométrico no requiere esto. Lo que sí
necesitamos saber es si los datos que podemos recopilar sobre los niveles de delincuencia comunitaria y el
tamaño de la fuerza policial pueden considerarse como experiencia. mental. Ciertamente podemos imaginar un
verdadero experimento que involucre una gran colección de ciudades donde dictamos cuántos agentes de policía
utilizará cada ciudad durante el próximo año.
Aunque se pueden utilizar políticas para afectar el tamaño de las fuerzas policiales, claramente no podemos
decirle a cada ciudad cuántos agentes de policía puede contratar. Si, como es probable, la decisión de una ciudad
sobre cuántos agentes de policía contratar está correlacionada con otros factores de la ciudad que afectan el
crimen, entonces los datos deben considerarse no experimentales. De hecho, una forma de ver este problema es
ver que la elección del tamaño de la fuerza policial por parte de una ciudad y la cantidad de delitos se determinan
simultáneamente. Abordaremos explícitamente estos problemas en el Capítulo 16.
Los primeros tres ejemplos que hemos analizado se refieren a datos transversales en varios niveles de
agregación (por ejemplo, a nivel individual o de ciudad). Los mismos obstáculos surgen al inferir causalidad en
problemas de series temporales.

Ejemplo 3 Ejemplo El efecto del salario mínimo sobre el desempleo: Una cuestión de política importante, y quizás polémica, se
refiere al efecto del salario mínimo sobre las tasas de desempleo de diversos grupos de trabajadores. Aunque este problema se
puede estudiar en una variedad de entornos de datos (datos transversales, series de tiempo o datos de panel), los datos de
series de tiempo a menudo se utilizan para observar efectos agregados. En el Cuadro 1.3 se ofrece un ejemplo de un conjunto
de datos de series temporales sobre tasas de desempleo y salarios mínimos.
El análisis estándar de oferta y demanda implica que, a medida que el salario mínimo aumenta por encima del salario de
equilibrio del mercado, nos deslizamos hacia arriba en la curva de demanda de mano de obra y el empleo total disminuye. (La
oferta de mano de obra supera la demanda de mano de obra.) Para cuantificar este efecto, podemos estudiar la relación entre
el empleo y el salario mínimo a lo largo del tiempo. Además de algunas dificultades especiales que pueden surgir al tratar con
datos de series temporales, existen posibles problemas al inferir causalidad. El salario mínimo en Estados Unidos no se
determina en el vacío. Varias fuerzas económicas y políticas inciden en el salario mínimo de Önal para un año determinado. (El
salario mínimo, una vez determinado, suele estar vigente durante varios años, a menos que esté indexado según la inflación).
Por lo tanto, es probable que el monto del salario mínimo esté relacionado con otros factores que tienen un efecto sobre los
22 CAPÍTULO 2 INTRODUCCIÓN A LA ECONOMÉTRICA

niveles de empleo. .
Podemos imaginar al gobierno estadounidense realizando un experimento para determinar los efectos del salario mínimo
en el empleo (en lugar de preocuparse por el bienestar de los trabajadores con salarios bajos). El salario mínimo podría ser
fijado aleatoriamente por el gobierno cada año, y luego se podrían tabular los resultados del empleo. Los datos de series
temporales experimentales resultantes podrían luego analizarse utilizando métodos econométricos bastante simples. Pero este
escenario difícilmente describe cómo se fijan los salarios mínimos.
Si podemos controlar suficientes otros factores relacionados con el empleo, entonces todavía podemos esperar estimar el
efecto ceteris paribus del salario mínimo sobre el empleo. En este sentido, el problema es muy similar a los ejemplos
transversales anteriores.

Incluso cuando las teorías económicas no se describen de forma más natural en términos de causalidad. idad,
a menudo tienen predicciones que pueden probarse utilizando métodos econométricos.
2.8 INTRODUCCIÓN A STATA 23

2.8 Introducción a Stata


Stata es un paquete estadístico que incluye una amplia variedad de capacidades, como gestión de datos, análisis
estadístico y econométrico, gráficos, etc. Tenga en cuenta que también existen otros paquetes de software que la
gente utiliza para la investigación económica y empresarial, como SPSS, Eviews o MicroÖt para los que empiezan,
RATS/CATS para los especialistas en series temporales, o R, Matlab, Gauss o Fortran para los más difíciles. -
centro). Entonces, la primera pregunta que debes hacerte es ¿por qué debería usar Stata? Stata es un paquete de
análisis estadístico integrado diseñado para profesionales de la investigación. Es fácil de usar; Puede ser utilizado
tanto por principiantes como por investigadores avanzados. Puede utilizar menús desplegables desde los cuales
se pueden elegir diferentes comandos o puede escribir los comandos usted mismo. Se prefiere el segundo ya que
ayuda a dominar el software y también a mantener sus comandos como do Öle para referencia futura, para revisar
o cambiar fácilmente sus estimaciones, etc.
La interfaz de usuario de Stata
A. La interfaz de usuario básica en Stata consta de cinco ventanas principales
1. La ventana Comando se utiliza para enviar comandos a Stata.
2. La ventana Salida es donde Stata proporciona respuestas a comandos y mensajes adicionales.
3. La ventana Revisar muestra los comandos que ya se enviaron a Stata durante la sesión actual.
4. La ventana Variables muestra los nombres de todas las variables contenidas en el conjunto de datos que
está actualmente abierto (es decir, en uso dentro de la sesión actual de Stata).
5. La ventana Propiedades muestra información sobre el conjunto de datos actual y una variable
seleccionada dentro de ese conjunto de datos.

B. De las cinco ventanas anteriores, las ventanas Comando y Salida son probablemente Probablemente el
más importante para los análisis en curso.
1. Las ventanas Revisar, Variables y Propiedades están destinadas principalmente a realizar un seguimiento
de la información que ya ha proporcionado al sistema Stata.
2. Puede insertar comandos desde la ventana Revisar y nombres de variables desde la ventana Variables en
la ventana Comando para ahorrarse algo de escritura.
C. Algunas ventanas adicionales pueden aparecer según sea necesario o en respuesta a comandos
particulares de Stata.
1. La ventana del Visor muestra archivos de ayuda (en respuesta a las solicitudes de ayuda de los usuarios).
tance) y el registro de Stata (un registro permanente de la sesión de Stata solicitado por el usuario).
2. La ventana Gráfico muestra gráficos producidos a partir de comandos de Stata.
3. Las ventanas Explorador de datos y Editor de datos permiten al usuario inspeccionar (y, con el Editor de
datos, modificar) el contenido del conjunto de datos abierto actual.
24 CAPÍTULO 2 INTRODUCCIÓN A LA ECONOMÉTRICA

Figura 2.3: Las diferentes ventanas de Stata

D. Hay dos métodos generales que un usuario puede emplear para comunicarse con Stata durante una
sesión.
1. El sistema de menús de Stata (es decir, "apuntar y hacer clic").
2. Ingresar comandos a través de la ventana Comando.
E. Generalmente, es mejor usar comandos en lugar de menús.
1. Con los comandos, es mucho más fácil mantener un registro de sus pasos y (si es necesario) reproducir el
contenido de su análisis.
2. Los comandos deben usarse en Stata Doles (ver más abajo).
II. Algunas características y reglas básicas de Stata
A. El usuario interactúa con Stata emitiendo comandos que se refieren a conjuntos de datos, variables y
otros objetos (por ejemplo, directorios y archivos fuera del sistema Stata en la computadora o en Internet).
B. El usuario se refiere a cada conjunto de datos o variable por su nombre. Existen algunas reglas estrictas,
pero sencillas, para crear nombres en Stata.
1. Los nombres de Stata pueden estar compuestos por letras, números y el símbolo de guión bajo (es decir, n
").
2. Los nombres de estado pueden tener hasta 32 caracteres y el primer carácter debe ser una letra o un
guión bajo.
3. Dentro de un conjunto de datos, cada variable debe tener un nombre único.
C. Algunos consejos sobre los nombres de Stata:
1. No utilice el carácter de subrayado.
2. Utilice nombres relativamente cortos para variables y conjuntos de datos.
2.8 INTRODUCCIÓN A STATA 25

3. Generalmente, es mejor utilizar nombres significativos (p. ej., edad, grupo, etc.) en lugar de nombres
"genéricos" (p. ej., var1, var2, data1, etc.).
4. Asegúrese de mantener registros cuidadosos que expliquen exactamente qué es cada variable y qué
contiene cada conjunto de datos. ¡Esto es absolutamente crítico! De lo contrario, realizarás análisis, los dejarás de
lado por un tiempo, volverás al trabajo más tarde y no sabrás lo que ya has hecho.
D. Stata distingue entre mayúsculas y minúsculas.
1. Los nombres variable1, VARIABLE1 y Variable1 son diferentes entre sí (según Stata) y podrían existir
juntos dentro de un único conjunto de datos.
2. Asegúrese de desarrollar sus propias reglas para el uso de letras mayúsculas y minúsculas en su
procesamiento de datos, ¡y cumpla siempre con estas reglas!
E. La estructura básica de un comando de Stata: nombre del comando lista de variables, opciones Donde:
nombre del comando es el nombre de un comando de Stata. Debe estar escrito correctamente y siempre se
ingresará en letras minúsculas. Lista de variables es el nombre de una o más variables a las que se está aplicando
el comando Stata. La coma es opcional. Si aparece, le indica a Stata que el usuario proporcionará información
adicional para el comando actual. Hay opciones específicas asociadas con cada comando de Stata. Tenga en
cuenta que las opciones se utilizan con mucha frecuencia en los análisis de datos con Stata.
F. Alguna información adicional sobre los comandos de Stata.
1. Los comandos de Stata pueden ser arbitrariamente largos (por ejemplo, cuando hay muchas variables en
la lista de variables). Al ingresar comandos en el teclado, el final de un comando se indica mediante un retorno
forzado (es decir, escribiendo la tecla <enter> ).
2. A menos que se indique lo contrario, los comandos de Stata se aplican a todas las observaciones dentro
del conjunto de datos actual. Hay elementos adicionales que se pueden incluir para restringir el alcance del
comando a subconjuntos particulares del conjunto de datos.
3. Con algunos comandos de Stata, se puede omitir la lista de variables; en ese caso, el comando se aplicará
a todas las variables relevantes dentro del conjunto de datos actual.
4. Algunos comandos de Stata no se aplican a variables (por ejemplo, aquellos que hacen referencia a
directorios o conjuntos de datos completos); en tales casos, la lista de variables se reemplaza por el nombre del
objeto apropiado.
G. Obteniendo ayuda con Stata.
1. A partir de Stata 11 (la versión más reciente al momento de escribir este artículo es Stata 14), el conjunto
de manuales de varios volúmenes que documentan el sistema Stata está disponible electrónicamente, como un
conjunto de archivos PDF.
2. Utilice la entrada Buscar en el menú Ayuda de Stata para ingresar términos. Esto es útil cuando sabe lo
que quiere hacer (por ejemplo, realizar una prueba t), pero no sabe cómo lograrlo en Stata. En ese caso, puede
ingresar prueba t en el cuadro de búsqueda.
3. Utilice la entrada Comando de Stata en el menú Ayuda de Stata para obtener información sobre comandos
específicos de Stata. Esto es útil cuando sabe lo que quiere hacer, pero no recuerda la sintaxis del comando o las
opciones disponibles (por ejemplo, ¿cómo uso el comando ttest de Stata?).
4. Cuando utiliza los elementos Buscar o Comando Stata en el menú Ayuda, Stata devuelve información en la
ventana del Visor.
III. La sesión de Stata
26 CAPÍTULO 2 INTRODUCCIÓN A LA ECONOMÉTRICA

A. Una sesión básica de Stata tiene tres partes.


1. Leer un conjunto de datos en Stata.
2. Modifique el contenido del conjunto de datos (si es necesario).
3. Realizar el análisis estadístico (u otra tarea de análisis de datos).
B. Después de leer los datos en Stata, se pueden repetir los otros dos pasos. de forma ordenada y en
diferentes órdenes (es decir, el usuario puede querer realizar un análisis y luego modificar los datos antes de
realizar otro análisis, etc.).
C. Dentro de una sesión de Stata, solo puede haber un conjunto de datos activo en cualquier momento.
1. Para utilizar un segundo conjunto de datos dentro de una única sesión de Stata, se debe eliminar el primer
conjunto de datos mediante el comando clear.
2. Si el primer conjunto de datos se modificó durante el transcurso de la sesión de Stata, Stata le preguntará
si desea guardar el conjunto de datos antes de borrarlo. Si no guarda el conjunto de datos, se perderán todos los
cambios que haya realizado en su contenido.
3. Sugerencia: si modificó su conjunto de datos durante el transcurso de la sesión de Stata, guárdelo con un
nuevo nombre (es decir, emita el comando, guarde el nuevo nombre antes de emitir el comando borrar). De esa
manera, tendrá tanto el conjunto de datos original, sin modificar, como la versión recién modificada que acaba de
crear.
4. Después de haber borrado el primer conjunto de datos, puede leer otro conjunto de datos y continuar con
los otros dos pasos de la sesión de Stata (es decir, modificaciones de datos y análisis estadísticos) con el nuevo
conjunto de datos.
D. Contenido de la ventana de Resultados durante la sesión de Stata
1. Los comandos, las respuestas a los comandos de Stata, la información adicional y los resultados de los
análisis estadísticos se imprimen en la ventana Resultados.
2. Stata llena la ventana de Resultados una pantalla a la vez. Si hay más contenido del que cabe en la
ventana, Stata deja de proporcionar la información y le pregunta si desea continuar, mostrando más en la parte
inferior de la pantalla.
a. Escribir <enter> hará que Stata muestre una línea más de salida.
b. Al escribir cualquier otra tecla (por ejemplo, la barra espaciadora) Stata continuará generando el resultado.
c. Muchos comandos de Stata producen más de una pantalla de salida, por lo que la condición "más" ocurrirá
con frecuencia durante el transcurso de una sesión interactiva de Stata. IV. Leer datos en la sesión de Stata
A. Los datos se pueden leer en Stata desde un conjunto de datos de Stata creado y guardado previamente, o
se pueden leer en formato "sin formato" desde un archivo de texto.
1. Si los datos están contenidos en un archivo de texto, entonces a las variables se les deben asignar
nombres de Stata y el usuario debe indicar a Stata si cada variable tiene valores numéricos o de caracteres. Este
proceso se llama definición de datos."
2. Si los datos consisten en un conjunto de datos de Stata previamente almacenado, estarán contenidos en
un archivo electrónico con una extensión n.dta" (Stata agregó esta extensión de archivo cuando se guardó el
conjunto de datos). En este caso, la definición de datos ya se ha completado y el usuario sólo necesita recuperar el
conjunto de datos en el sistema Stata.
B. Aunque no es absolutamente necesario, casi siempre es útil cambiar el directorio de trabajo al comienzo
de una sesión de Stata.
2.8 INTRODUCCIÓN A STATA 27

1. El directorio de trabajo es la ubicación en la que Stata busca archivos de datos externos. Si crea archivos
nuevos durante el transcurso de su sesión de Stata (por ejemplo, conjuntos de datos, archivos de registro, gráficos
guardados, etc.), se escribirán en el directorio de trabajo a menos que especifique explícitamente lo contrario.
Stata generalmente establece el directorio de trabajo predeterminado en c:ndata.
2. El comando cd se utiliza para cambiar el directorio de trabajo. Por lo tanto, si sus archivos de datos están
almacenados en el subdirectorio ndatasets", dentro del directorio npls802" en una unidad ash identificada como
ng:" en la computadora, probablemente comenzaría su sesión de Stata con el siguiente comando: The path to el
directorio de trabajo debe estar entre comillas dobles si hay espacios en blanco internos dentro de cualquiera de
los nombres del directorio. Por lo tanto, aquí no son realmente necesarios. Pero tampoco duelen.
C. El comando use lee un conjunto de datos de Stata previamente almacenado en la sesión actual.
1. Si el conjunto de datos de Stata se llama mydata, se almacenará en un archivo llamado mydata.dta. Si este
conjunto de datos está contenido en el directorio de trabajo, entonces el comando para recuperarlo en la sesión
actual sería: use mydata Tenga en cuenta que la extensión Öle (.dta) no se usa en este comando (Stata distingue
el conjunto de datos del archivo en el que se almacena el conjunto de datos).
2. Si el conjunto de datos de Stata no está contenido en el directorio de trabajo actual, entonces el comando
use debe incluir la ruta completa al conjunto de datos. Esto podría verse así: use g:npls828ndatasetsnmydataD. Si
los datos se almacenan en formato "nraw", deben estar contenidos en un archivo de texto ASCII (normalmente,
con extensión de archivo n.txt") y la información debe organizarse dentro del archivo de la siguiente manera:
1. Debe haber una línea de datos por observación y cada línea debe terminar con un retorno definitivo.
2. Los valores de las variables se dan en el mismo orden para cada observación (y cada observación debe
tener el mismo número de valores de las variables).
3. Hay espacios en blanco (es decir, al menos un espacio en blanco) entre cada par adyacente de
valores de variables en cada línea.
4. Si falta un valor de datos para una observación, se muestra como un punto decimal dentro del archivo de
datos.
5. La mayoría de las variables tendrán valores numéricos (o puntos decimales), pero Stata puede manejar
variables con valores de caracteres muy fácilmente. Si una variable tiene valores de caracteres, entonces el
usuario debe saber el número máximo de caracteres que aparecerán en los valores de esa variableE. Los archivos
de datos sin procesar (que cumplen con las características anteriores) se leen en Stata con el comando inÖle. La
sintaxis general del comando inÖle es la siguiente: lista de variables inÖle usando texto Öle
Donde: lista de variables es la lista de nombres de las variables en el archivo de datos. Por supuesto, los
nombres deben ajustarse a las reglas de nomenclatura de Stata y debe haber tantos nombres como valores de
variables en cada línea del archivo de datos. Si una variable tiene valores de caracteres, entonces su nombre debe
ir precedido de strxx, donde xx es el número máximo de caracteres que pueden aparecer en los valores de esa
variable. text Öle es el nombre del archivo de texto ASCII que contiene los datos sin procesar. Este nombre debe
incluir la extensión del archivo. Si el archivo no se encuentra dentro del directorio de trabajo actual, también se
debe proporcionar la ruta al archivo.
1. Por ejemplo, supongamos que un archivo de texto llamado newdata.txt se encuentra en el directorio de
trabajo y que incluye información sobre cuatro variables. Supongamos además que la primera variable es una
variable de caracteres, cuyos valores pueden tener hasta doce caracteres. En ese caso, la declaración in le podría
verse así: inÖle str12 var1 var2 var3 var4 usando newdata.txt
28 CAPÍTULO 2 INTRODUCCIÓN A LA ECONOMÉTRICA

Tenga en cuenta que usted crea sus propios nombres de variables, sujetos a las reglas de nomenclatura de
Stata. En este ejemplo, se utilizan nombres "genéricos". Pero, repito, por lo general se deben emplear nombres
que tengan sentido sustancial y que brinden cierta información sobre el contenido de cada variable.G. Un conjunto
de datos creado con el comando inÖle no tendrá nombre hasta que se guarde. El conjunto de datos se puede
guardar y asignar un nombre con el comando guardar. La sintaxis del comando guardar es la siguiente: guardar
datos nuevos
En el comando anterior, newdata es el nombre del nuevo conjunto de datos de Stata. Debe cumplir con las
reglas de nomenclatura de Stata. El conjunto de datos se almacenará en el directorio de trabajo actual. Si es
necesario almacenarlo en otro lugar, se debe proporcionar la ruta completa.
2. Stata tiene varios comandos que son útiles para obtener información sobre el conjunto de datos actual en
la sesión de Stata.
1. El comando describe ofrece un resumen sucinto del conjunto de datos actual.
2. El comando list imprime el contenido del conjunto de datos actual.
3. Cuando cualquiera de los comandos anteriores se da sin más argumentos gumentos, proporcionarán
información sobre (o una lista de) todas las variables del conjunto de datos. Cualquiera de estos comandos puede
ir seguido de una lista de variables, que limita el alcance del comando únicamente a las variables enumeradas.
I. Se puede crear un nuevo conjunto de datos dentro de la ventana del Editor de datos.
1. Abra la ventana del Editor de datos escribiendo editar en la ventana Comando.
2. La ventana del editor de datos es similar a una hoja de cálculo. Cada fila representa una observación y
cada columna representa una variable. Simplemente escriba los valores en las celdas según corresponda,
comenzando en la celda superior izquierda.
3. Stata asigna nombres de variables, pero no son muy informativos (es decir, var1,var2, etc.). Cree un
nombre de variable más significativo haciendo clic en un nombre existente en la ventana Variables, luego haciendo
doble clic en Nombre en la ventana Propiedades e ingresando un nuevo nombre en el campo a la derecha.
4. Después de completar las celdas en el Editor de datos, cierre esta ventana. Eso restaurará la interfaz de
usuario de Stata y el conjunto de datos podrá guardarse o analizarse como de costumbre.
5. En términos generales, no es una buena práctica crear conjuntos de datos en la ventana del Editor de
datos. Es mejor crear los datos en un Öle de texto y leer la información en Stata usando el comando inÖle.
V. Modificación de datos
A. Si los datos están listos para analizarse después de leerlos en Stata, entonces no hay necesidad de
realizar ninguna modi cación de datos. Puede pasar directamente a los comandos de análisis estadístico.
B. Etiquetas descriptivas para conjuntos de datos y variables.
1. El comando de etiqueta le permite adjuntar una etiqueta descriptiva extendida (de hasta 80 caracteres) a
conjuntos de datos y a variables dentro de conjuntos de datos. La sintaxis es la siguiente para una etiqueta de
conjunto de datos: etiqueta de datos "texto de etiqueta" Y la sintaxis para una etiqueta de variable es: etiqueta
variable "texto de etiqueta"
2. Tenga en cuenta que se deben utilizar comillas dobles para encerrar cada etiqueta.
C. El comando generar crea una nueva variable realizando operaciones matemáticas en variables existentes
y constantes numéricas.
1. La sintaxis general del comando generar es: generar nueva variable = expresión aritmética
Donde: nueva variable es el nombre de una variable que aún no existe en el conjunto de datos actual de Stata
2.8 INTRODUCCIÓN A STATA 29

(el usuario inventa este nombre). expresión aritmética es alguna expresión matemática válida compuesta
de nombres de variables, constantes numéricas y operaciones matemáticas previamente definidas. eradores.
Tenga en cuenta que n=" en el comando generar no es la igualdad matemática habitual. En cambio, es un
operador de asignación que le dice a Stata que evalúe las operaciones matemáticas. expresión matemática en el
lado derecho y asigne el resultado a la nueva variable nombrada en el lado izquierdo.
2. Algunos operadores matemáticos que pueden aparecer en el lado derecho incluyen + para suma, - para
resta, * para multiplicación y / para división.
3. Los paréntesis deben usarse generosamente dentro de la expresión matemática para controlar el orden de
las operaciones. Tenga en cuenta que el espacio entre los elementos de una expresión matemática es
generalmente arbitrario; Utilice muchos espacios para mejorar la legibilidad.
4. Por ejemplo, supongamos que el conjunto de datos actual contiene dos variables denominadas xvar e yvar,
respectivamente. La siguiente declaración de generación crearía una nueva variable llamada promedio que se crea
tomando la media de xvar e yvar: promedio = (xvar + yvar) / 2
D. El comando reemplazar reemplaza los valores de una variable existente cuando se cumple una condición
lógica especificada.
1. La sintaxis general para reemplazar es la siguiente: reemplazar nombrevar = expresión aritmética si
condición lógica Las condiciones lógicas pueden ser verdaderas o falsas. La declaración anterior aplicará el
resultado de la expresión aritmética a la variable denominada var-name si y sólo si una observación cumple la
condición lógica.2. La condición lógica puede estar compuesta por nombres de variables existentes, operadores
matemáticos y operadores lógicos.
3. Los operadores lógicos incluyen > para mayor que, > = para mayor o igual que, < para menor que, < = para
menor o igual que, == para equivalencia lógica, & para conjunción (la nand lógica"), j para disyunción (el nor
lógico") y ! para la negación (el nnot lógico").
4. Por ejemplo, supongamos que queremos establecer el valor del promedio en cero si una observación ción
tiene un valor negativo en xvar o yvar. Esto se podría lograr con el siguiente comando de reemplazo: reemplazar
promedio = 0 si xvar < 0 j yvar < 0
5. Cuando se hace referencia a un valor especí co de una variable de carácter en una expresión lógica sion,
ese valor debe estar entre comillas dobles. Por ejemplo: reemplace xvar = xvar + 5 si género == "masculino".
6. Tenga cuidado al utilizar reemplazar; Si cambia los valores de una variable y luego guarda el conjunto de
datos, los valores originales de la variable se perderán.
E. Cualquier cambio en el conjunto de datos actual se perderá después de que finalice la sesión actual de
Stata, a menos que se guarde el conjunto de datos (usando el comando guardar).
1. Una vez que se guarda el conjunto de datos recién modificado, la información original no se puede
recuperar. Por lo tanto, Stata intenta asegurarse de que realmente desea guardar la nueva versión antes de
permitirle hacerlo.
2. Como se explicó anteriormente, puede guardar el conjunto de datos modificado en un nuevo conjunto de
datos simplemente usando un nombre de conjunto de datos diferente y no utilizado en el comando guardar.3.
alternativa Alternativamente, el comando guardar y reemplazar sobrescribirá el conjunto de datos existente.
Nuevamente, asegúrese de querer hacer esto antes de usar la opción reemplazar en el comando guardar.
VI. Análisis estadísticos en Stata
A. Este folleto no cubrirá análisis estadísticos específicos con mucho detalle. Los comandos específicos
30 CAPÍTULO 2 INTRODUCCIÓN A LA ECONOMÉTRICA

varían de un tipo de análisis a otro, por lo que serán una introducción. según sea necesario a lo largo del curso.
B. A veces es útil distinguir entre dos tipos generales de comandos de análisis en Stata.
1. Muchos comandos proporcionan análisis descriptivos. Para estos, el usuario emite el comando y Stata
imprime los resultados en la ventana Resultados, completando el análisis. Ejemplos de comandos de análisis
descriptivo incluyen resumir y correlacionar.
2. Otros comandos estiman los parámetros de los modelos estadísticos. Para estos, las estimaciones del
modelo se retienen en la memoria hasta que se estime otro modelo. Las estimaciones se pueden recuperar en la
ventana Resultados muy fácilmente (quizás usando diferentes opciones ent) y operaciones suplementarias se
pueden llevar a cabo en el modelo, utilizando los comandos de postestimación de Stata. El comando de estimación
de modelos más importante (al menos para los propósitos de este curso) es la regresión.
C. Análisis de datos por subgrupos
1. Utilice el prefijo by para realizar un análisis por separado en subconjuntos de datos de nidos por los valores
de otra variable. Por ejemplo: por región: resumir política de pnb En el comando anterior de Stata, las estadísticas
resumidas sobre las variables pnb y política se calcularían por separado para subgrupos de observaciones
definidos por los distintos valores de la variable región. Por supuesto, estas tres variables deben existir en el
conjunto de datos actual de Stata.
2. Para utilizar el prefijo by, el conjunto de datos debe ordenarse por los valores de la variable utilizada para
de ner los subgrupos. hay tres maneras de hacer esto. Primero, preceda el comando de análisis (resumido en este
ejemplo) con el comando de clasificación: ordenar región por región: resumir política gnp
En segundo lugar, utilice la opción de clasificación en por pre x: por región, ordenar: resumir la política gnp
En tercer lugar, utilice bysort en lugar de by en el prex: bysort región: resumir la política del pnb. Todos estos
enfoques producirían resultados idénticos.
D. Analizar un único subconjunto de datos
1. Utilice el calificador if para restringir el análisis a un subconjunto del conjunto de datos actual definido por
una condición lógica. Por ejemplo: resumir el pnb si región == "sur". La expresión anterior calcularía estadísticas
resumidas solo para aquellas observaciones en las que el valor de la variable región es sur.
2. La forma general de este calificativo es la palabra, si, seguida de una condición lógica. condición. Stata
restringirá el análisis especificado por el comando a aquellas observaciones para las cuales la expresión se evalúa
como VERDADERA.
3. Si bien hay formas de combinar el uso de by pre x y if qualiÖer en un solo comando, generalmente no es
una buena idea hacerlo.
VII. Crear, guardar y ver un registro de sesión
A. El contenido de la ventana Resultados de Stata proporciona un registro de la sesión de Stata. Sin
embargo, existen dos posibles inconvenientes en el funcionamiento predeterminado de la ventana Resultados:
1. El contenido de la ventana Resultados se almacena en la memoria. La mayoría de las computadoras tienen
una cantidad limitada de memoria disponible. Cuando Stata se queda sin memoria disponible, trunca los elementos
más antiguos de la ventana de Resultados actual. Esto puede resultar problemático en una sesión larga de Stata.
2. El contenido de la ventana Resultados se pierde cuando finaliza la sesión de Stata.
B. Para superar los problemas anteriores, es una buena idea guardar el contenido de la sesión de Stata en
un archivo separado llamado nStata Log."
1. El comando para comenzar a crear un Stata Log es: iniciar sesión usando el nombre de Öle
2.8 INTRODUCCIÓN A STATA 31

En este comando, Öle name es el nombre de un nuevo archivo. No utilice una extensión de Öle, porque Stata
agregará su propia extensión (n.smcl") al nombre de Öle.
2. Una vez que se abre el archivo de registro, todo lo que aparece en la ventana de Resultados se escribirá
en el archivo (también se mostrará en la ventana de Resultados).
3. Para dejar de enviar el contenido de la sesión de Stata al archivo de registro, ejecute el siguiente comando:
log close
C. El contenido del Stata Log se puede examinar en la ventana Stata Viewer. La forma más sencilla de hacer
esto es hacer clic en el elemento Registro del menú Archivo, seleccionar Ver en el submenú que aparece y luego
buscar el archivo que contiene el registro (recuerde que este archivo tendrá el nombre de archivo que le asignó,
con un extensión de .smcl).
D. El contenido del Stata Log se puede guardar en un archivo de texto ASCII.
1. La forma más sencilla de hacer esto es hacer clic en el elemento Registro del menú Archivo, seleccionar
Traducir en el submenú que aparece y luego buscar el archivo que contiene el registro (recuerde que este archivo
tendrá el nombre que le asignó, con un extensión de .smcl) en el cuadro "Archivo de entrada".
2. A continuación, escriba un nuevo nombre de archivo en el cuadro "Archivo de salida". Cuando hace clic en
"Traducir", el archivo .smcl se traducirá a un archivo de texto con la extensión.log. Este es un archivo de texto
ASCII normal que se puede abrir en cualquier procesador de textos (por ejemplo, MS Word) o procesador de
textos (por ejemplo, el Bloc de notas en Windows).
3. Tenga en cuenta que el contenido de un Stata Log traducido debe verse en una fuente de ancho fijo, como
Courier. Lo mejor es un tamaño relativamente pequeño (por ejemplo, 9 puntos) para evitar cambios de línea
innecesarios.
VIII. Uso de Do-Öles para enviar (y guardar) comandos
R. Hasta ahora, se ha asumido que el usuario está trabajando con Stata en modo "interactivo", es decir,
escribiendo un comando a la vez en la ventana de Comandos. Si bien es ciertamente posible hacer esto en
contextos de análisis "serios", existen varias razones para no hacerlo.
1. En una sesión larga de Stata, es difícil realizar un seguimiento de los comandos y pasos anteriores en el
curso del análisis.
2. Los comandos en sí no se guardan. Esto es problemático porque la mayoría de los análisis deberán
ejecutarse varias veces. Incluso si se realizarán algunos cambios en cada análisis, es deseable evitar volver a
escribir todos los comandos.B. Como alternativa, se puede escribir un conjunto de comandos de Stata en un
archivo separado. El conjunto completo de comandos se puede enviar a Stata para su procesamiento usando solo
un comando en la ventana de comandos de Stata. Estos Öles de los comandos de Stata se llaman nDo-Öles."
1. Se puede crear un Do-Öle simplemente guardando un grupo de comandos de Stata en un Öle de texto.
Esto se puede hacer en cualquier procesador de textos (por ejemplo, MS Word) o procesador de textos (por
ejemplo, el Bloc de notas en MS Windows).
2. Un Do-Öle creado en un procesador de textos debe guardarse como un Öle de texto "sin formato" (es
decir, sin ninguno de los códigos internos producidos automáticamente por el software de procesamiento de
textos).
3. Stata tiene su propio Dole Editor, que es un procesador de texto con algunas funciones Funciones
avanzadas para crear, nombrar y enviar Doles.
4. Al guardar el Do-Öle, es bueno usar una extensión de nombre de archivo de n.do"; esto no es obligatorio,
32 CAPÍTULO 2 INTRODUCCIÓN A LA ECONOMÉTRICA

pero puede ser conveniente para enviar Do-Öles a Stata. Tenga en cuenta que, independientemente de la
extensión del nombre, un Do-Öle debe ser un Öle de texto ASCII sin formato.
C. Presentación de Do-Öles
1. Do-Öles se puede enviar en la ventana Comando, escribiendo el siguiente comando: do do Öle nombre.
Donde el nombre de Öle es solo el nombre del Do-Öle creado previamente.
2. Si el Dole se ha guardado con la extensión .do, entonces no es necesario incluir la extensión en el
comando do.
3. Si el Dole no está contenido en el directorio de trabajo actual, entonces el nombre del archivo debe incluir
la ruta completa al archivo.
4. Los Do-Öles también se pueden enviar desde el editor Stata Do-Öle, usando el comando nDo" de la barra
de menú. D. Errores en Do-Öles
1. Un error en un Do-Öle (por ejemplo, una palabra mal escrita, sintaxis de comando no válida, error comando
colocado, etc.) hará que Stata imprima un mensaje de error y deje de procesar los comandos en Öle.
2. Generalmente es más fácil corregir el error en el Do-Öle y simplemente volver a enviar el Öle a Stata.
3. Si Do-Öle intentó leer un conjunto de datos en Stata antes del error, probablemente Probablemente tenga
que emitir el comando claro antes de volver a enviar el Do-Öle (recuerde, Stata solo puede procesar un conjunto
de datos a la vez).
4. Si inició un archivo de registro dentro de Do-Öle, entonces probablemente tendrá que emitir el comando de
cierre de registro antes de volver a enviar el Do-Öle (sólo se puede abrir un registro Öle a la vez).
E. Algunos trucos prácticos" para Do-Öles.
1. Recuerde que Stata solo llenará la ventana de Resultados una pantalla a la vez, y la línea "más" aparecerá
en la parte inferior de cada ventana llena.
a. Esto puede resultar molesto y molesto cuando se utiliza una Do-Öle que produce una gran cantidad de
rendimiento.
b. Para que la salida se desplace continuamente en la ventana Resultados, emita el siguiente comando: set
more o§
2. Los comandos de Stata pueden ser arbitrariamente largos; De forma predeterminada, Stata reconoce el
retorno forzado (es decir, escribir la tecla <enter> ) como el delimitador del comando (es decir, la señal de que el
comando actual ha finalizado).
a. Es una buena práctica de programación mantener las líneas de un Stata Do-Öle muy cortas (es decir,
nunca más de 70 caracteres como máximo).
b. Para seguir la regla anterior, a menudo será necesario dividir los comandos de Stata en líneas; esto
requiere un retorno forzado, por lo que será necesario cambiar el delimitador del comando para poder hacerlo.
c. El delimitador del comando Stata se puede cambiar a un carácter específico (por ejemplo, el punto y
coma), enviando el siguiente comando como parte de un Do-Öle: #delimit; Después de emitir el comando anterior,
cada comando de Stata puede ejecutarse en tantas líneas como sea necesario. El comando no termina hasta que
Stata encuentra un punto y coma.
d. El comando #delimit solo funciona dentro de Do-Öles, y el cambio de delimitador solo dura mientras dure
Do-Öles.
F. Registrar Öles dentro de un Do-Öle
1. De forma predeterminada, un registro de Stata sólo se puede escribir en un nuevo Öle. Pero, si hay un
2.8 INTRODUCCIÓN A STATA 33

error en el Do-Öle, Stata puede crear el log Öle (aunque no ponga nada en él). Cuando esto ocurre, el archivo de
registro debe eliminarse antes de volver a ejecutar el Do-Öle que contiene el comando de uso del registro.
2. Para evitar tener que eliminar archivos de registro de Do-Öles bloqueados, use la opción reemplazar en el
registro usando el comando. Por ejemplo: iniciar sesión usando nuevo registro Öle, reemplazar El comando
anterior abriría un registro Öle llamado nuevo registro Öle. Si ya existe un archivo con ese nombre, Stata
sobrescribirá ese archivo con el nuevo registro.
3. ¡Tenga cuidado al usar la opción de reemplazar! Una vez que se reemplaza el contenido de un Öle, el
contenido original no se puede recuperar.
G. Utilice comentarios dentro de Do-Öles!
1. Una de las razones más importantes para utilizar Do-Öles es conservar la com comandos para su uso
posterior. Sin embargo, es muy fácil olvidar los detalles del análisis incluso durante períodos de tiempo
relativamente cortos.
2. Por lo tanto, documente el contenido de sus Do-Öles intercalando comentarios entre los comandos de
Stata.
3. El comando de comentarios de Stata. Un comando que comienza con un asterisco se considera un
comentario y Stata simplemente imprimirá el resto de ese comando en la ventana de Resultados.
b. Es útil cambiar el delimitador del comando a algo distinto al retorno forzado, de modo que los comentarios
puedan abarcar más de una línea. Es útil dejar espacios en blanco alrededor de los comentarios para hacerlos
más destacados visualmente dentro del Do-Öle.
4. Insertar comentarios en un Do-Öle puede parecer una molestia innecesaria, ¡¡¡hazlo de todos modos!!!
Capítulo 3

Mínimos cuadrados ordinarios

3.1 Introducción
El pan de cada día del análisis de regresión es la estimación de los coeficientes de los modelos
econométricos utilizando una técnica llamada Mínimos Cuadrados Ordinarios (MCO). Las dos
primeras secciones de este capítulo resumen el razonamiento detrás y la mecánica de OLS. Los
usuarios de regresión dependen de las computadoras para realizar los cálculos reales de OLS,
por lo que el énfasis aquí está en comprender qué intenta hacer OLS y cómo lo hace.
¿Cómo se puede distinguir una ecuación buena de una mala una vez estimada? Hay varios
criterios útiles, incluido el grado en que la ecuación estimada coincide con los datos reales. Sin
embargo, centrarse en Öt no está exento de peligros, por lo que compartimos un ejemplo del mal
uso de este criterio.

3.2 Objetivos de aprendizaje


Según el material de este capítulo, debería poder
1. Explique la diferencia entre un estimador y una estimación, y por qué los estimadores de
mínimos cuadrados son variables aleatorias y por qué las estimaciones de mínimos cuadrados
no lo son.
2. Analice la interpretación de los parámetros de pendiente e intersección del modelo de
regresión simple y dibuje la gráfica de una ecuación estimada.
3. Explique la descomposición teórica de una variable observable en sus componentes
sistemáticos y aleatorios, y muestre esta descomposición gráficamente.
4. Discutir y explicar cada uno de los supuestos de la regresión lineal simple. modelo.
5. Explique cómo se utiliza el principio de mínimos cuadrados para trazar una línea a través
de un diagrama de dispersión de datos. Ser capaz de definir el valor residual de mínimos
cuadrados y el valor ajustado de mínimos cuadrados de la variable dependiente y mostrarlos en
un gráfico.

6. Defina la elasticidad de y con respecto ax y explique su cálculo en el modelo de

3
9
40 CAPÍTULO 3 MÍNIMOS CUADRADOS ORDINARIOS

regresión lineal simple cuando y y x no se transforman de ninguna manera, y cuando y y/o x se


han transformado para modelar una relación no lineal.
7. Explique el significado de la afirmación "Si se cumplen los supuestos del modelo de
regresión SR1ñ SR5, entonces el estimador de mínimos cuadradosb2 es insesgado". En
particular, ¿qué significa exactamente "insesgado"? ¿Por qué b2 está sesgado si se ha omitido
una variable importante del modelo?
8. Explique el significado de la frase "variabilidad del muestreo".
9. Explique cómo los factores s 2 , (xi x) 2 y N afectan la precisión con la que podemos
estimar el parámetro desconocido b2.
10. Enunciar y explicar el teorema de GaussñMarkov.
11. Utilice el estimador de mínimos cuadrados para estimar relaciones no lineales y en
interpretar los resultados.

3.3 Estimación de la modificación de una sola variable


independiente els con OLS
El propósito del análisis de regresión es tomar una ecuación puramente teórica como:

Universidad de Addis Abeba, Oficina de Educación Continua y a Distancia..............1


28 de febrero de 2018...................................................................................................1
Contenido.............................................................................................................................ii
Chapter 1..............................................................................................................................1
Introducción.........................................................................................................................1
1.1 ¿Por qué estudiar econometría?.............................................................................1
1.2 El objetivo principal de este módulo.....................................................................2
1.3 Los resultados del aprendizaje..............................................................................2
1.4 Requisitos previos.................................................................................................3
1.5 Recursos................................................................................................................3
Chapter 2..............................................................................................................................4
Introducción a la econometría..............................................................................................4
2.1 ¿Qué es la econometría?........................................................................................5
2.2 ¿Qué es el análisis de regresión?...........................................................................7
2.3 Modelos lineales de una sola ecuación.................................................................9
2.4 El término de error estocástico..............................................................................9
2.4.1 La importancia del término de perturbación estocástica..............................10
2.5 Algunos puntos sobre notaciones........................................................................12
2.6 La ecuación de regresión estimada......................................................................14
2.7 Estructuras de datos económicos.........................................................................15
3.3 ESTIMACIÓN DE MODELOS DE UNA VARIABLE INDEPENDIENTE CON MCO 41

2.7.1 Datos transversales.......................................................................................15


2.7.2 Datos de series de tiempo............................................................................16
2.7.3 Secciones transversales agrupadas...............................................................17
2.7.4 Datos de panel o longitudinales...................................................................17
2.8 Introducción a Stata..................................................................................................23
Capítulo 3...........................................................................................................................39
Mínimos cuadrados ordinarios...........................................................................................39
3.1 Introducción........................................................................................................39
3.2 Objetivos de aprendizaje.....................................................................................39
3.3 Estimación de la modificación de una sola variable independiente els con OLS
40
3.3.1 ¿Por qué utilizar mínimos cuadrados ordinarios?........................................43
3.4 Variables ficticias.....................................................................................................57
3.4.1 Una nota sobre las escalas de medición de variables...................................58
3.4.2 La naturaleza de las variables ficticias.........................................................60
3.4.3 Una única variable independiente ficticia....................................................60
Capítulo 4...........................................................................................................................59
Modelo clásico de regresión lineal....................................................................................59
4.1 Objetivos de aprendizaje.....................................................................................59
4.2 Introducción........................................................................................................59
4.3 Los supuestos clásicos.........................................................................................60
4.4 La distribución muestral de B..................................................................................67
4.4.1 Propiedades de la media...............................................................................68
4.4.2 Propiedades de la varianza...........................................................................68
4.5 El teorema de Gauss-Markov...................................................................................70
Capítulo 5...........................................................................................................................71
Prueba de hipótesis e inferencia estadística.......................................................................71
5.1 Introducción........................................................................................................71
5.2 Objetivos de aprendizaje.....................................................................................72
5.3 Introducción........................................................................................................72
5.3.1 Hipótesis nulas y alternativas clásicas.........................................................73
5.3.2 Errores tipo I y tipo II..................................................................................74
5.3.3 Reglas de decisión de la prueba de hipótesis...............................................75
5.4 la prueba t............................................................................................................77
5.4.1 El estadístico t..............................................................................................77
5.4.2 El valor t crítico y la regla de decisión de la prueba t..................................79
5.4.3 Elegir un nivel de significancia....................................................................80
42 CAPÍTULO 3 MÍNIMOS CUADRADOS ORDINARIOS

5.4.4 Valor p.........................................................................................................81


5.5 Limitaciones de la prueba t.................................................................................83
5.6 Intervalo de confianza.........................................................................................84
5.7 La prueba F.........................................................................................................85
5.7.1 ¿Qué es la prueba F?....................................................................................85
Capítulo 6...........................................................................................................................87
Violación de supuestos clásicos.........................................................................................87
6.1 Introducción........................................................................................................87
6.2 Objetivos de aprendizaje.....................................................................................87
6.3 Multicolinealidad................................................................................................88
6.3.1 Pruebas de multicolinealidad.......................................................................91
6.3.2 Remedios para la multicolinealidad.............................................................93
6.4 Correlación serial.....................................................................................................93
6.4.1 Series de tiempo...........................................................................................94
6.4.2 Correlación serial pura.................................................................................94
6.4.3 Correlación serial impura.............................................................................96
6.4.4 Consecuencias de la correlación serial........................................................98
6.4.5 Detección de correlación serial....................................................................98
6.5 Heterocedasticidad...................................................................................................99
1.1.1 Las consecuencias de la heterocedasticidad..............................................105
1.1.2 Pruebas de heterocedasticidad...................................................................106
6.5.3 Remedios para la heterocedasticidad...............................................................110
Capítulo 7.........................................................................................................................113
Modelos de regresión para variables categóricas y dependientes limitadas....................113
7.1 Objetivos de aprendizaje...................................................................................113
7.2 Introducción......................................................................................................114
7.3 El modelo logit.......................................................................................................115
7.3.1 Datos a nivel individual.............................................................................117
7.3.2 Medidas de bondad de Öt..........................................................................119
7.4 Modelos de regresión multinomial.........................................................................120
7.4.1 MRM nominal para datos específicos de elección....................................121
7.5 Modelos de regresión ordinal.................................................................................124
7.5.1 Modelo Logit ordinal.................................................................................126
Capítulo 8.........................................................................................................................128
Preguntas de revisión.......................................................................................................128
Bibliografía......................................................................................................................135
3.3 ESTIMACIÓN DE MODELOS DE UNA VARIABLE INDEPENDIENTE CON MCO 43

El propósito de la técnica de estimación es obtener valores numéricos para los coeficientes


de una ecuación de regresión que de otro modo sería completamente teórica.
El método más utilizado para obtener estas estimaciones es el de mínimos cuadrados
ordinarios (MCO), que se ha vuelto tan estándar que sus estimaciones se presentan como un
punto de referencia incluso cuando se utilizan resultados de otras técnicas de estimación.
Mínimos cuadrados ordinarios (OLS) es una técnica de estimación de regresión que calcula
tarde el
P s para minimizar la suma de los residuos al cuadrado, así:
n

norte

OLS minimiza 1€2 (yo = 1;:::; norte) (3.3)


yo = 1

Dado que estos residuos (€ i s) son las diferencias entre los Y reales y los — s

Y estimados producidos por la regresión (los Y i s en la Ecuación 2), la Ecuación 3 equivale a


s

decir que MCO minimiza

norte 2

Y yo ^ Y yo (3.4)
yo = 1

Datos sin procesar Cálculos intermedios requeridos


i V
X (yT) (XX) (X,-x)2 (XX)(Y) -t) e,=Y- Y (
(1) (2) (4) (SI (6) (7)
1 140
(3)
5 -29.40 -5.35 28.62 157.29
(8)
135.3
(9)
4.7
2 157 9 -12.40 -1.35 1.82 16.74 160.8 -3.8
3 205 13 35.60 2.65 7.02 94.34 186.3 18.7
4 198 12 28.60 1.65 2.72 47.19 179.9 18.1
5 162 10 -7.40 -0.35 0.12 2.59 167.2 -5.2
6 174 11 4.60 0.65 0.42 2.99 173.5 0.5
7 150 8 -19.40 -2.35 5.52 45.59 154.4 -4.4
8 165 9 -4.40 -1.35 1.82 5.94 160.8 4.2
9 170 10 0.60 -0.35 0.12 -0.21 167.2 2.8
10 180 12 10.60 1.65 2.72 17.49 179.9 0.1
11 170 11 0.60 0.65 0.42 0.39 173.5 -3.5
12 162 9 -7.40 -1.35 1.82 9.99 160.8 1.2
13 165 10 -4.40 -0.35 0.12 1.54 167.2 -2.2
14 180 12 10.60 1.65 2.72 17.49 179.9 0.1
15 160 8 -9.40 -2.35 5.52 22.09 154.4 5.6
16 155 9 -14.40 -1.35 1.82 19.44 160.8 -5.8
17 165 10 -4.40 -0.35 0.12 1.54 167.2 -2.2
18 190 15 20.60 4.65 21.62 95.79 199.1 -9.1
19 185 13 15.60 2.65 7.02 41.34 186.3 -1.3
20 155 11 -14.40 0.65 0.42 -9.36 173.5 -18.5
Suma 3388 207 0.0 0.0 92.50 590.20 3388.0 -0.0
Signific 169.4 10.35 0.0 0.0 169.4 0.0
ar

3.3.1 ¿Por qué utilizar mínimos cuadrados ordinarios?


Aunque MCO es la técnica de estimación de regresión más utilizada, no es la única. De hecho,
los econometristas han desarrollado lo que parecen millones de técnicas de estimación
diferentes, algunas de las cuales analizaremos más adelante en este curso. Hay al menos tres
razones importantes para utilizar MCO para estimar modelos de regresión: N
OLS es relativamente fácil de usar. El objetivo de minimizar € i
2
es bastante apropiado
yo = 1
desde un punto de vista teórico.
Las estimaciones MCO tienen varias características útiles. ¿Cómo estimaría MCO un modelo
de regresión de una sola variable independiente como la Ecuación 1?
44 CAPÍTULO 3 MÍNIMOS CUADRADOS ORDINARIOS

Yi=^0+^1Xi+€i

MCO selecciona aquellas estimaciones de


B 0 y
B 1 que minimizan los residuos al cuadrado,
sumados sobre todos los puntos de datos de la muestra. Para una ecuación con una sola
variable independiente, estos coeficientes son:

norte

b [ ( X yo - X ) ( Y yo - Y )]
bi = -------------------------- (3.5)
X^
X yo ^ X) 2
yo =1

Bo = Y — 3,X (3.6)

Tenga en cuenta que para cada conjunto de datos diferente, obtendremos estimaciones
diferentes de
B0y
B 1
dependiendo de la muestra.

Sólo unas pocas variables dependientes pueden explicarse completamente mediante una
única variable independiente. La productividad laboral, por ejemplo, se ve influenciada por algo
más que las habilidades de los trabajadores. ¿Qué pasa con el capital social, las prácticas de
gestión, la externalidad de las empresas vecinas, etc.? Hay más razones para incluir una
variedad de variables independientes en las aplicaciones económicas y comerciales. Por
ejemplo, aunque la cantidad per cápita consumida de un producto ciertamente se ve afectada por
el precio, esa no es toda la historia. La publicidad, el ingreso per cápita, los precios de los
sustitutos, la influencia de los mercados extranjeros, la calidad del servicio al cliente y los gustos
cambiantes son todos importantes en los modelos del mundo real. En consecuencia, es vital
pasar de una única desde regresiones de variables independientes hasta modelos de regresión
multivariados o ecuaciones con más de una variable independiente.
El modelo de regresión multivariado general con K variables independientes se puede
representar mediante
Y yo = B 0 + B 1 X 1 yo + B 2 X 2 yo + ::: + B k X ki + e yo (3.7)

La mayor diferencia entre un modelo de regresión con una sola variable independiente y un
modelo de regresión multivariado está en la interpretación de los coeficientes de pendiente de
este último. Estos coeficientes, a menudo llamados coeficientes de regresión parcial, se definen
para permitir al investigador distinguir el impacto de una variable del de otra en variables
dependientes. Específicamente, un coeficiente de regresión multivariado indica el cambio en la
variable dependiente asociado con un aumento de una unidad en el índice. variable pendiente en
cuestión, manteniendo constantes las demás variables independientes en la ecuación.
Ahora analicemos algunas medidas de en qué medida la variación de la variable dependiente
se explica por la ecuación de regresión estimada. Esta comparación de los valores estimados
con los valores reales puede ayudar al investigador a juzgar la idoneidad de una regresión
3.3 ESTIMACIÓN DE MODELOS DE UNA VARIABLE INDEPENDIENTE CON MCO 45

estimada. Los econometristas utilizan las variaciones al cuadrado de Y alrededor de su media


como medida de la cantidad de variación que debe explicar la regresión. Esta cantidad calculada
generalmente se llama suma total de cuadrados, o TSS, y se escribe como:
norte
Universidad de Addis Abeba, Oficina de Educación Continua y a Distancia..............1
28 de febrero de 2018...................................................................................................1
Contenido.............................................................................................................................ii
Chapter 1..............................................................................................................................1
Introducción.........................................................................................................................1
1.1 ¿Por qué estudiar econometría?.............................................................................1
1.2 El objetivo principal de este módulo.....................................................................2
1.3 Los resultados del aprendizaje..............................................................................2
1.4 Requisitos previos.................................................................................................3
1.5 Recursos................................................................................................................3
Chapter 2..............................................................................................................................4
Introducción a la econometría..............................................................................................4
2.1 ¿Qué es la econometría?........................................................................................5
2.2 ¿Qué es el análisis de regresión?...........................................................................7
2.3 Modelos lineales de una sola ecuación.................................................................9
2.4 El término de error estocástico..............................................................................9
2.4.1 La importancia del término de perturbación estocástica..............................10
2.5 Algunos puntos sobre notaciones........................................................................12
2.6 La ecuación de regresión estimada......................................................................14
2.7 Estructuras de datos económicos.........................................................................15
2.7.1 Datos transversales.......................................................................................15
2.7.2 Datos de series de tiempo............................................................................16
2.7.3 Secciones transversales agrupadas...............................................................17
2.7.4 Datos de panel o longitudinales...................................................................17
2.8 Introducción a Stata..................................................................................................23
Capítulo 3...........................................................................................................................39
Mínimos cuadrados ordinarios...........................................................................................39
3.1 Introducción........................................................................................................39
3.2 Objetivos de aprendizaje.....................................................................................39
3.3 Estimación de la modificación de una sola variable independiente els con OLS
40
3.3.1 ¿Por qué utilizar mínimos cuadrados ordinarios?........................................43
3.4 Variables ficticias.....................................................................................................57
3.4.1 Una nota sobre las escalas de medición de variables...................................58
46 CAPÍTULO 3 MÍNIMOS CUADRADOS ORDINARIOS

3.4.2 La naturaleza de las variables ficticias.........................................................60


3.4.3 Una única variable independiente ficticia....................................................60
Capítulo 4...........................................................................................................................59
Modelo clásico de regresión lineal....................................................................................59
4.1 Objetivos de aprendizaje.....................................................................................59
4.2 Introducción........................................................................................................59
4.3 Los supuestos clásicos.........................................................................................60
4.4 La distribución muestral de B..................................................................................67
4.4.1 Propiedades de la media...............................................................................68
4.4.2 Propiedades de la varianza...........................................................................68
4.5 El teorema de Gauss-Markov...................................................................................70
Capítulo 5...........................................................................................................................71
Prueba de hipótesis e inferencia estadística.......................................................................71
5.1 Introducción........................................................................................................71
5.2 Objetivos de aprendizaje.....................................................................................72
5.3 Introducción........................................................................................................72
5.3.1 Hipótesis nulas y alternativas clásicas.........................................................73
5.3.2 Errores tipo I y tipo II..................................................................................74
5.3.3 Reglas de decisión de la prueba de hipótesis...............................................75
5.4 la prueba t............................................................................................................77
5.4.1 El estadístico t..............................................................................................77
5.4.2 El valor t crítico y la regla de decisión de la prueba t..................................79
5.4.3 Elegir un nivel de significancia....................................................................80
5.4.4 Valor p.........................................................................................................81
5.5 Limitaciones de la prueba t.................................................................................83
5.6 Intervalo de confianza.........................................................................................84
5.7 La prueba F.........................................................................................................85
5.7.1 ¿Qué es la prueba F?....................................................................................85
Capítulo 6...........................................................................................................................87
Violación de supuestos clásicos.........................................................................................87
6.1 Introducción........................................................................................................87
6.2 Objetivos de aprendizaje.....................................................................................87
6.3 Multicolinealidad................................................................................................88
6.3.1 Pruebas de multicolinealidad.......................................................................91
6.3.2 Remedios para la multicolinealidad.............................................................93
6.4 Correlación serial.....................................................................................................93
3.3 ESTIMACIÓN DE MODELOS DE UNA VARIABLE INDEPENDIENTE CON MCO 47

6.4.1 Series de tiempo...........................................................................................94


6.4.2 Correlación serial pura.................................................................................94
6.4.3 Correlación serial impura.............................................................................96
6.4.4 Consecuencias de la correlación serial........................................................98
6.4.5 Detección de correlación serial....................................................................98
6.5 Heterocedasticidad...................................................................................................99
1.1.1 Las consecuencias de la heterocedasticidad..............................................105
1.1.2 Pruebas de heterocedasticidad...................................................................106
6.5.3 Remedios para la heterocedasticidad...............................................................110
Capítulo 7.........................................................................................................................113
Modelos de regresión para variables categóricas y dependientes limitadas....................113
7.1 Objetivos de aprendizaje...................................................................................113
7.2 Introducción......................................................................................................114
7.3 El modelo logit.......................................................................................................115
7.3.1 Datos a nivel individual.............................................................................117
7.3.2 Medidas de bondad de Öt..........................................................................119
7.4 Modelos de regresión multinomial.........................................................................120
7.4.1 MRM nominal para datos específicos de elección....................................121
7.5 Modelos de regresión ordinal.................................................................................124
7.5.1 Modelo Logit ordinal.................................................................................126
Capítulo 8.........................................................................................................................128
Preguntas de revisión.......................................................................................................128
Bibliografía......................................................................................................................135

Suma de Cuadrados Total (TSS) = Suma de Cuadrados Explicada (ESS) + Suma de Cuadrados
Residual (RSS). A esto se le suele llamar descomposición de la varianza.
Si el pan de cada día del análisis de regresión es la estimación MCO, entonces el corazón y
el alma de la econometría es determinar qué tan buenas son estas estimaciones MCO. Muchos
48 CAPÍTULO 3 MÍNIMOS CUADRADOS ORDINARIOS

Figura 3.1: Descomposición de la Varianza en Y

Los econometristas principiantes tienden a aceptar estimaciones de regresión tal como salen de
una computadora o tal como se publican en un artículo, sin pensar en el significado o la validez
de esas estimaciones. Esa fe ciega tiene tanto sentido como comprar un guardarropa completo
de ropa sin probársela. Algunas prendas no serán sólo una, pero muchas otras resultarán ser
errores grandes (o pequeños). En cambio, el trabajo de un econometrista es pensar y evaluar
cuidadosamente cada aspecto de la ecuación, desde la teoría subyacente hasta la calidad de los
datos, antes de aceptar como válido el resultado de una regresión. De hecho, la mayoría de los
buenos econometristas dedican bastante tiempo a pensar qué esperar de una ecuación antes de
estimarla. Sin embargo, una vez que se han producido las estimaciones por computadora, es
hora de evaluar los resultados de la regresión. La lista de preguntas que deberían plantearse
durante dicha evaluación es larga. Por ejemplo:
¿Está la ecuación respaldada por una teoría sólida?
¿Qué tan bien funciona la regresión estimada de los datos?
¿El conjunto de datos es razonablemente grande y preciso?
¿Es MCO el mejor estimador que se puede utilizar para esta ecuación?
¿Qué tan bien corresponden los coeficientes estimados a las expectativas desarrolladas por
el investigador antes de que se recopilaran los datos?
¿Están todas las variables obviamente importantes incluidas en la ecuación?
¿Se ha utilizado la forma funcional más teóricamente lógica?
¿Parece la regresión estar libre de problemas econométricos importantes?
Esperamos que una buena ecuación de regresión estimada explique con bastante precisión
la variación de la variable dependiente en la muestra. Si es así, decimos que el modelo estimado
se ajusta bien a los datos.
Observar el Öt general de un modelo estimado es útil no sólo para evaluar la calidad de la
regresión, sino también para comparar modelos que tienen diferentes conjuntos de datos o
combinaciones de variables independientes. Nunca podremos estar seguros de que
3.3 ESTIMACIÓN DE MODELOS DE UNA VARIABLE INDEPENDIENTE CON MCO 49

un modelo estimado representa la verdad más que otro, pero evaluar la calidad del Öt de la
ecuación es un ingrediente en la elección entre diferentes formulaciones de un modelo de
regresión. ¡Ten cuidado, sin embargo! La calidad del Öt es un ingrediente menor en esta
elección, y muchos investigadores principiantes se dejan influenciar demasiado por ella. La
medida de Öt más sencilla y comúnmente utilizada es R 2 , o el coeficiente de determinación. R 2
es la relación entre la suma de cuadrados explicada y la suma total de cuadrados:

RSS mi yo 2

R2 TSS = 1 TSS = 1 X ^ Y yo ^Y)


2 (3.10)

Cuanto mayor es R 2
, más se acerca la ecuación de regresión estimada a los datos
muestrales. Las medidas de este tipo se denominan medidas de "bondad de Öt". R 2
mide el
porcentaje de variación de Y alrededor de Y que se explica por la ecuación de regresión. Dado
que OLS selecciona las estimaciones de coeficientes que minimizan RSS, OLS pro proporciona
el R 2
más grande posible, dado un modelo lineal. Dado que TSS, RSS y ESS son todos no
negativos (son desviaciones al cuadrado), y dado que ESS < TSS, entonces R 2 debe estar en el
intervalo 0 < R 2 < 1 .
Un valor de R 2
cercano a uno muestra un Öt general excelente, mientras que un valor
cercano a cero muestra una falla de la ecuación de regresión estimada para explicar los valores
de Yi mejor de que podría explicarse por la media muestral Y .
lo

Figura 3.2: X e Y no están relacionados; en tal caso, R 2 sería 0 .

Un problema importante con R 2 es que agregar otra variable independiente a una ecuación
particular nunca puede disminuir R 2 .
Es decir, si comparas dos ecuaciones que son idénticas (la misma variable dependiente y
variables independientes), excepto que una tiene una variable independiente adicional, la
ecuación con el mayor número de variables independientes siempre tendrá un Öt mejor (o igual)
medido por R2 .
50 CAPÍTULO 3 MÍNIMOS CUADRADOS ORDINARIOS

Figura 3.3: Un conjunto de datos para X e Y que se pueden "explicar" bastante bien con una
línea de regresión

Para ver esto, recuerde la ecuación de R 2

RSS mi yo 2
R2 =1^ =1^ (3.11)
TSS TSS X ^ Y ^ Y ) 2
i

¿Qué pasará con R 2 si agregamos una variable a la ecuación?


Agregar una variable no puede cambiar TSS (¿puedes adivinar por qué?)
Pero en la mayoría de los casos la variable agregada reducirá el RSS, por lo que R 2

aumentará. Usted sabe que RSS nunca aumentará porque el programa MCO siempre podría
establecer el coeficiente de la variable agregada igual a cero, dando así el mismo Öt que la
ecuación anterior. El coe¢ ciente de que la variable recién agregada sea cero es el único cir
circunstancia en la que R 2 permanecerá igual cuando se agregue una variable. De lo contrario, R
2
siempre aumentará cuando se agregue una variable a una ecuación. La inclusión de una nueva
variable no relacionada no sólo añade una variable sin sentido a la ecuación, sino que también
requiere la estimación de otro coeficiente. Esto disminuye los grados de libertad , o el exceso del
número de observaciones (N) sobre el número de coeficientes (incluido el intercepto) estimado (K
+ 1) . Esta disminución tiene un costo, ya que cuanto menores sean los grados de libertad,
menos confiables serán las estimaciones. Por lo tanto, el aumento en la calidad del Öt causado
por la adición de una variable debe compararse con la disminución en los grados de libertad
antes de que se pueda tomar una decisión con respecto al impacto estadístico de la variable
agregada.
En resumen, R 2
es de poca ayuda si intentamos decidir si agregar una variable a una
ecuación mejora nuestra capacidad para explicar significativamente la variable dependiente.
Debido a este problema, los econometristas han desarrollado otra medida de la calidad del Öt de
una ecuación. Esa medida es R (pronunciado R -barra al cuadrado), que se ajusta por grados de
libertad:

R2 = mi yo 2 =(N ^ K ^ 1)
X^
Y yo ^ Y) 2 =(N ^ 1) (3.12)

R 2 mide el porcentaje de la variación de Y alrededor de su media que es ex explicado por la


3.3 ESTIMACIÓN DE MODELOS DE UNA VARIABLE INDEPENDIENTE CON MCO 51

ecuación de regresión, ajustada por grados de libertad. R aumentará, disminuirá o permanecerá


igual cuando se agregue una variable a una ecuación, dependiendo de si la mejora en Öt
causada por la adición de la nueva variable compensa la pérdida del grado de libertad. Un
aumento en R 2
indica que el beneficio marginal de agregar una variable excede el costo,
mientras que una disminución en R 2 indica que el costo marginal excede el beneficio. El R más
alto posible es 1,00, el mismo que para R 2 . Sin embargo, el R más bajo posible no es 0,00; si R 2
es extremadamente bajo, R puede ser ligeramente negativo. R se puede utilizar para comparar
los Öts de ecuaciones con la misma variable dependiente y diferentes números de variables
independientes.
Debido a esta propiedad, la mayoría de los investigadores utilizan automáticamente R 2
en
lugar de R 2
al evaluar el Öt de sus ecuaciones de regresión estimadas. Tenga en cuenta, sin
embargo, que R 2
no es tan útil cuando se comparan los Öts de dos ecuaciones que tienen
diferentes variables dependientes o variables dependientes que se miden de manera diferente.
Por último, recuerde siempre que la calidad de Öt de una ecuación estimada es sólo una medida
de la calidad general de esa regresión. Como se mencionó anteriormente, el grado en que los
coeficientes estimados se ajustan a la teoría económica y las expectativas previas del
investigador sobre esos coeficientes son tan importantes como la Öt misma. Por ejemplo, una
ecuación estimada con un buen Öt pero con un signo inverosímil para un coeficiente estimado
podría dar predicciones inverosímiles y, por tanto, no ser una ecuación muy útil. También entran
en juego otros factores, como la relevancia teórica y la utilidad.
Aunque no existen reglas estrictas y rápidas para realizar investigaciones econométricas, la
mayoría de los investigadores suelen seguir un método estándar para el análisis de regresión
aplicado. hermana. El énfasis relativo y el esfuerzo invertido en cada paso variarán, pero
normalmente todos los pasos son necesarios para una investigación exitosa. Tenga en cuenta
que no analizamos la selección de la variable dependiente; esta elección está determinada por el
propósito de la investigación. Sin embargo, una vez elegida una variable dependiente, es lógico
seguir los siguientes seis pasos en el análisis de regresión aplicado:

Paso 1: Revisar la literatura y desarrollar el modelo teórico.

El primer paso en cualquier investigación aplicada es conseguir una buena comprensión teórica
del tema que se va a estudiar. Así es: ¡los mejores analistas de datos no comienzan con datos,
sino con teoría! Esto se debe a que muchas decisiones econométricas, desde qué variables
incluir hasta qué forma funcional emplear, están determinadas por el modelo teórico subyacente.
Es prácticamente imposible construir un buen modelo econométrico sin una comprensión sólida
del tema que estás estudiando.
Para la mayoría de los temas, esto significa que es inteligente revisar la literatura académica
antes de hacer cualquier otra cosa. Si un profesor ha investigado la teoría detrás de su tema,
querrá saberlo. Si otros investigadores han estimado ecuaciones para su variable dependiente,
es posible que desee aplicar uno de sus modelos a su conjunto de datos. Por otro lado, si no
está de acuerdo con el enfoque de autores anteriores, es posible que desee tomar una nueva
dirección. En cualquier caso, no debería tener que "reinventar la rueda". Debe comenzar su
52 CAPÍTULO 3 MÍNIMOS CUADRADOS ORDINARIOS

investigación donde la dejaron los investigadores anteriores. Cualquier artículo académico sobre
un tema empírico debe comenzar con un resumen del alcance y la calidad de la investigación
previa.
Los enfoques más convenientes para revisar la literatura son obtener varios números
recientes del Journal of Economic Literature o una publicación de resúmenes orientada a los
negocios, o realizar una búsqueda en Internet o un EconLitsearch sobre su tema. Utilizando
estos recursos, busque y lea varios artículos recientes sobre su tema. Preste atención a las
bibliografías de estos artículos. Si un número de autores actuales citan un artículo anterior, o si
su título da en el blanco de su tema, revise la literatura y busque este artículo también.
En algunos casos, un tema será tan nuevo o tan oscuro que no podrás encontrar ningún
artículo sobre él. ¿Entonces que? Recomendamos dos posibles estrategias. Primero, intenta
transferir la teoría de un tema similar al tuyo. Por ejemplo, si está intentando construir un modelo
de la demanda de un nuevo producto, lea artículos que analicen la demanda de productos
similares existentes. En segundo lugar, si todo lo demás falla, comuníquese con alguien que
trabaje en el campo que está investigando. Por ejemplo, si está construyendo un modelo de
vivienda en una ciudad desconocida, llame a un agente de bienes raíces que trabaje allí.

2. Especificar el modelo: Seleccionar las variables independientes y la forma funcional.

El paso más importante en el análisis de regresión aplicado es la especificación de la modelo de


regresión teórica. Después de seleccionar la variable dependiente, la especificación de un
modelo implica elegir los siguientes componentes:
1. las variables independientes y cómo deben medirse,
2. la forma funcional (matemática) de las variables, y
3. las propiedades del término de error estocástico.
Se especifica una ecuación de regresión cuando cada uno de estos elementos ha sido
tratado adecuadamente.
Cada uno de los elementos de la especificación se determina principalmente sobre la base
de criterios ecológicos. teoría nómica. Un error en cualquiera de los tres elementos resulta en un
error de especificación . De todos los tipos de errores que pueden cometerse en el análisis de
regresión aplicado, el error de especificación suele ser el más desastroso para la validez de la
ecuación estimada. Por lo tanto, cuanto más atención se preste a la teoría económica al
comienzo de un proyecto, más satisfactorios serán probablemente los resultados de la regresión.
El énfasis en este texto está en la estimación de ecuaciones de comportamiento, aquellas que
describen el comportamiento de las entidades económicas. Nos enfocamos en seleccionar
variables independientes basadas en el eco. teoría económica sobre ese comportamiento. Se
elige una variable explicativa porque es un determinante teórico de la variable dependiente; se
espera que explique al menos parte de la variación de la variable dependiente. Recordemos que
la regresión proporciona evidencia pero no prueba la causalidad económica. Así como un
ejemplo no prueba la regla, el resultado de una regresión no prueba la teoría.
Existen peligros al especificar las variables independientes incorrectas. Nuestro objetivo
debería ser especificar sólo variables explicativas relevantes, aquellas que teóricamente se
3.3 ESTIMACIÓN DE MODELOS DE UNA VARIABLE INDEPENDIENTE CON MCO 53

espera que ejerzan una influencia sustantiva sobre la variable dependiente. Las variables
sospechosas de tener poco efecto deben excluirse a menos que su posible impacto sobre la
variable dependiente sea de algún interés particular (por ejemplo, de política).
Por ejemplo, una ecuación que explique la cantidad demandada de un bien de consumo
podría utilizar el precio del producto y el ingreso o riqueza del consumidor como variables
probables. La teoría también indica que los bienes complementarios y sustitutos son im
importante. Por lo tanto, podría decidir incluir los precios de los complementos y sustitutos, pero
¿qué complementos y sustitutos? Por supuesto, la selección de los complementos y/o sustitutos
más cercanos es apropiada, pero ¿hasta dónde se debe llegar? La elección debe basarse en un
juicio teórico, y dichos juicios suelen ser bastante subjetivos.
Cuando los investigadores deciden, por ejemplo, que sólo es necesario incluir los precios de
otros dos bienes, se dice que imponen sus antecedentes (es decir, creencias teóricas previas) o
sus hipótesis de trabajo sobre la ecuación de regresión. La imposición de tales antecedentes es
una práctica común que determina el número y tipo de hipótesis que la ecuación de regresión
debe probar. El peligro es que un análisis previo pueda estar equivocado y disminuir la utilidad
de la ecuación de regresión estimada. Por lo tanto, cada uno de los antecedentes debe
explicarse y justificarse en detalle.

3. Plantee una hipótesis sobre los signos esperados de los coeficientes.

Una vez que se han seleccionado las variables, es importante formular hipótesis sobre los signos
esperados de los coeficientes de pendiente antes de recopilar datos. En muchos casos, la teoría
básica es un conocimiento general, por lo que no es necesario discutir las razones del signo
esperado. Sin embargo, si hay alguna duda en torno a la elección de un signo esperado,
entonces se deben documentar las teorías opuestas y las razones para plantear la hipótesis de
un coeficiente de pendiente positivo o negativo.

4. Recoge los datos. Inspeccionar y limpiar los datos.

Obtener un conjunto de datos original y prepararlo adecuadamente para la regresión es una


sorpresa. tarea tremendamente difícil. Este paso implica más que un registro mecánico de datos,
porque también se deben elegir el tipo y tamaño de la muestra.
Una regla general con respecto al tamaño de la muestra es "cuantas más observaciones,
mejor", siempre que las observaciones sean de la misma población general. Por lo general, los
investigadores toman todas las observaciones más o menos comparables que están disponibles.
En el análisis de regresión, todas las variables deben tener el mismo número de observaciones.
También deben tener la misma frecuencia (mensual, trimestral, anual, etc.) y período de tiempo.
A menudo, la frecuencia seleccionada está determinada por la disponibilidad de datos.
La razón por la que debería haber tantas observaciones como sea posible se refiere a la sta
Concepto estadístico de grados de libertad mencionado por primera vez en la sección anterior.
Considere trazar una línea recta a dos puntos en un sistema de coordenadas X , Y como en la
Figura siguiente. Si solo hay dos puntos en un conjunto de datos, como en la figura anterior, una
54 CAPÍTULO 3 MÍNIMOS CUADRADOS ORDINARIOS

recta

Figura 3.4: Ajuste matemático de una línea a dos puntos

La línea se puede unir matemáticamente a esos puntos sin error, porque dos puntos determinan
completamente una línea recta.
Un ejercicio de este tipo se puede realizar matemáticamente sin errores. Ambos puntos se
encuentran sobre la recta, por lo que no hay estimación de los coeficientes involucrados. Los dos
puntos disuaden Extraiga los dos parámetros, la intersección y la pendiente, con precisión. La
estimación se realiza sólo cuando se une una línea recta a tres o más puntos que fueron
generados por algún proceso que no es exacto. El exceso del número de observaciones (tres)
sobre el número de coeficientes a estimar (en este caso dos, la intersección y la pendiente) son
los grados de libertad. Todo lo que se necesita para la estimación es un único grado de libertad,
como en la Figura siguiente, pero cuantos más grados de libertad haya, mejor.

Esto se debe a que cuando el número de grados de libertad es grande, es probable que cada
error positivo se vea compensado por un error negativo. Cuando los grados de libertad son
bajos, es probable que el elemento aleatorio no proporcione tales observaciones
compensatorias. Por ejemplo, cuanto más se lanza una moneda, más probable es que la
proporción observada de caras refleje la probabilidad real de 0,5. .
Otro área de preocupación tiene que ver con las unidades de medida de las variables.
¿Importa si una variable se mide en dólares o en miles de dólares? ¿Importa si la variable
medida difiere consistentemente de la variable verdadera por
3.3 ESTIMACIÓN DE MODELOS DE UNA VARIABLE INDEPENDIENTE CON MCO 55

Figura 3.5: Ajuste estadístico de una línea a tres puntos

¿10 unidades? Curiosamente, tales cambios no importan en términos de análisis de regresión


excepto en la interpretación de la escala de los coeficientes. Todas las conclusiones sobre
signos, significancia y teoría económica son independientes de las unidades de medida. Por
ejemplo, hay poca diferencia si una variable independiente se mide en dólares o en miles de
dólares. El término constante y las medidas de Öt total permanecen sin cambios. Tal factor
multiplicativo cambia el coeficiente de pendiente, pero sólo en la cantidad exacta necesaria para
compensar el cambio en las unidades de medida de la variable independiente. De manera
similar, un factor constante agregado a una variable altera sólo el término del intercepto sin
cambiar el coeficiente de pendiente en sí.

El último paso antes de estimar su ecuación es inspeccionar y limpiar los datos. Siempre
debe asegurarse de revisar su conjunto de datos para ver si puede encontrar algún error. La
razón es obvia: ¿por qué molestarse en utilizar un sofisticado análisis de regresión si los datos
son incorrectos?

Para inspeccionar los datos, obtenga un gráfico de los datos y busque valores atípicos. Un
valor atípico es una observación que se encuentra fuera del rango del resto de las
observaciones, y buscar valores atípicos es una manera fácil de encontrar errores en el ingreso
de datos. Además, es un buen hábito observar la media, el máximo y el mínimo de cada variable
y luego pensar en posibles inconsistencias en los datos. ¿Alguna observación es imposible o
poco realista? ¿Se duplicó el PIB en un año? ¿Tiene un estudiante un GPA de 7.0 en una escala
de 4.0? ¿El consumo es negativo?

Normalmente, los datos se pueden limpiar de estos errores reemplazando un número


incorrecto por el correcto. En circunstancias extremadamente raras, se puede eliminar una
observación de la muestra, pero sólo si no se puede encontrar el número correcto o si esa
observación en particular claramente no proviene de la misma población que el resto de la
muestra. ¡Ten cuidado! La mera existencia de un valor atípico no es una justificación para
eliminar esa observación de la muestra. Una regresión debe poder explicar todas las
observaciones de una muestra, no sólo las de buen comportamiento.

Yi = 103,40 + 6,38X
(0.88)
l = 7,22
N = 20 R2 = .73

5. Estima y evalúa la ecuación.

Lo creas o no, puede llevar meses completar los pasos 1 a 4 de una ecuación de regresión,
¡pero un programa de computadora como Stata o EViews puede estimar esa ecuación en menos
de un segundo! Normalmente, la estimación se realiza utilizando MCO, pero si se utiliza otra
56 CAPÍTULO 3 MÍNIMOS CUADRADOS ORDINARIOS

técnica de estimación, las razones de esa técnica alternativa deben explicarse y evaluarse
cuidadosamente.
Podrías pensar que una vez estimada tu ecuación, tu trabajo estará terminado, pero ese no
es el caso. En cambio, debe evaluar sus resultados de diversas formas. ¿Qué tan bien se ajusta
la ecuación a los datos? Fueron los signos y magni ¿Qué valores de los coeficientes estimados
esperaba? La mayor parte del resto de este libro se ocupa de la evaluación de ecuaciones
econométricas estimadas, y los investigadores principiantes deben estar preparados para
dedicar una cantidad considerable de tiempo a realizar esta evaluación.
Una vez completada esta evaluación, no vaya automáticamente al paso 6. regresa Los
resultados de la misión rara vez son los que uno espera y, a menudo, se requiere un desarrollo
adicional del modelo. Por ejemplo, una evaluación de sus resultados podría indicar que a su
ecuación le falta una variable importante. En tal caso, volvería al paso 1 para revisar la literatura
y agregar la variable apropiada a su ecuación. Luego seguiría cada uno de los pasos en orden
hasta haber estimado su nueva especificación en el paso 5. Pasarías al paso 6 sólo si estuvieras
satisfecho con tu ecuación estimada. Sin embargo, no se apresure a hacer tales ajustes, porque
no queremos ajustar la teoría simplemente a los datos. Un investigador tiene que caminar sobre
una línea entre hacer cambios apropiados y evitar los inapropiados, y tomar estas decisiones es
uno de los elementos artísticos de la econometría aplicada.
Finalmente, a menudo vale la pena estimar especificaciones adicionales de una ecuación.
ción para ver qué tan estables son los resultados observados. Este enfoque se llama análisis de
sensibilidad.

6. Documente los resultados.

Generalmente se utiliza un formato estándar para presentar los resultados de regresión


estimados.
El número entre paréntesis es el error estándar estimado del coeficiente estimado, y el valor t
es el que se utiliza para probar la hipótesis de que el valor verdadero del coeficiente es diferente
de cero. Estas y otras medidas de la calidad de la regresión se analizarán en capítulos
posteriores. Lo que es importante señalar es que la documentación de los resultados de la
regresión utilizando un formato fácilmente comprensible se considera parte del análisis en sí.
Para conjuntos de datos de series de tiempo, la documentación también incluye la frecuencia
(por ejemplo, trimestral o anual) y el período de tiempo de los datos.
Una de las partes importantes de la documentación es la explicación del modelo, los
supuestos y los procedimientos y datos utilizados. La documentación escrita debe contener
suficiente información para que otros puedan replicar el estudio completo. A menos que las
variables se hayan definido en un glosario o tabla, se deben presentar definiciones breves junto
con las ecuaciones. Si hay una serie de ecuaciones de regresión estimadas, entonces las tablas
deben proporcionar la información relevante para cada ecuación. Todas las manipulaciones de
datos, así como las fuentes de datos, deben documentarse completamente. Cuando hay mucho
que explicar, esta documentación suele quedar relegada a un apéndice de datos. Si los datos no
están disponibles en general o sólo lo están después de un cálculo, el conjunto de datos en sí
3.3 ESTIMACIÓN DE MODELOS DE UNA VARIABLE INDEPENDIENTE CON MCO 57

podría incluirse en este apéndice.

3.4 Variables ficticias


En nuestras discusiones hasta ahora las variables dependientes e independientes en nuestros
modelos de regresión múltiple han tenido significado cuantitativo. Sólo algunos ejemplos incluyen
el salario por hora, los años de educación, el promedio de calificaciones universitarias, la
cantidad de contaminación del aire, el nivel de ventas de Örm y el número de arrestos. En cada
caso, la magnitud de la variable transmite información útil. En el trabajo empírico, también
debemos incorporar factores cualitativos en los modelos de regresión. El género o la raza de un
individuo, la industria de una empresa (manufactura, venta minorista, etc.) y la región de Etiopía
donde está ubicada una ciudad (sur, norte, oeste, etc.) se consideran cualitativos. factores.
La mayor parte de esta sección está dedicada a variables cualitativas independientes.
Después de discutir las formas apropiadas de describir la información cualitativa a continuación,
mostramos cómo las variables explicativas cualitativas se pueden incorporar fácilmente en
múltiples informes. modelos de gresión. Estas secciones cubren casi todas las formas populares
en que se utilizan variables cualitativas independientes en el análisis de regresión transversal.
Los factores cualitativos suelen presentarse en forma de información binaria: una persona es
mujer o hombre; una persona posee o no una computadora personal; una empresa ofrece o no
un determinado tipo de plan de pensiones para empleados; un estado administra la pena capital
o no lo hace. En todos estos ejemplos, la información relevante se puede capturar definiendo una
variable binaria o una variable cero-uno. En econometría, las variables binarias se denominan
más comúnmente variables ficticias, aunque este nombre no es especialmente descriptivo.
Al definir una variable ficticia, debemos decidir a qué evento se le asigna el valor uno y a cuál
se le asigna el valor cero. Por ejemplo, en un estudio de individuos
58 CAPÍTULO 3 MÍNIMOS CUADRADOS ORDINARIOS

Para determinar el salario, podríamos definir a una mujer como una variable binaria que toma el
valor uno para las mujeres y el valor cero para los hombres. El nombre en este caso indica el
evento con el valor uno. La misma información se captura al definir masculino como uno si la
persona es hombre y cero si es mujer. Cualquiera de estas opciones es mejor que usar género
porque este nombre no deja claro cuándo la variable ficticia es uno: ¿género=1 corresponde a
hombre o mujer? El nombre que llamemos a nuestras variables no es importante para obtener
resultados de regresión, pero siempre ayuda elegir nombres que aclaren las ecuaciones y
exposiciones.
Supongamos que en el ejemplo del salario hemos elegido el nombre femenino para indicar
género. Además, definimos una variable binaria casada para que sea igual a uno si una persona
está casada y cero en caso contrario. La Tabla XXX ofrece una lista parcial del conjunto de datos
salariales que podrían resultar. Vemos que la Persona 1 es mujer y no está casada, la Persona 2
es mujer y está casada, la Persona 3 es hombre y no está casada, y así sucesivamente. ¿Por
qué utilizamos los valores cero y uno para describir información cualitativa? En cierto sentido,
estos valores son arbitrarios: dos valores diferentes cualesquiera serían suficientes. El verdadero
beneficio de capturar información cualitativa utilizando variables cero uno es que conduce a
modelos de regresión donde los parámetros tienen interpretaciones muy naturales, como
veremos ahora.

persona salario educar ex por femenino casado


1 3.10 11 2 1 0

2 3.24 12 22 1 1
3 3.00 11 2 0 0

4 6.00 8 44 0 1
5 5.30 12 7 0 1

525 11.56 16 5 0 1
526 3.50 14 5 1 0

Figura 3.6: Listado parcial de los datos en WAGE1

3.4.1 Una nota sobre las escalas de medición de variables


Las variables que generalmente encontraremos se dividen en cuatro categorías amplias: ra
escala tio, escala de intervalo, escala ordinal y escala nominal. Es importante que entendamos a
cada uno.
Escala de proporción
Para una variable X , tomando dos valores, X 1 y X 2 , la relación X 1 = X 2 y la distancia (X 2 ^ X
1 ) son cantidades significativas. Además, existe un orden natural (ascendente o descendente) de
los valores a lo largo de la escala. Por lo tanto, comparaciones como X 2 <X 1 oX 2 > X 1 son
significativas. La mayoría de las variables económicas pertenecen a esta categoría. Por lo tanto,
3.4 VARIABLES Dummy 59

tiene sentido preguntarse qué tan grande es el PIB de este año en comparación con el PIB del
año anterior. El ingreso personal, medido en dólares, es una variable de ratio; alguien que gana
100.000 dólares gana el doble que otra persona que gana 50.000 dólares (¡antes de que se
evalúen los impuestos, por supuesto!).
Escala de intervalo
Una variable de escala de intervalo satisface las dos últimas propiedades de la variable de
escala de razón. capaz pero no el Örst. Por lo tanto, la distancia entre dos períodos de tiempo,
digamos (2000-1995), es significativa, pero no la relación entre dos períodos de tiempo
(2000/1995). A las 11:00 am PST del 11 de agosto de 2007, Portland, Oregon, informó una
temperatura de 60 grados Fahren heit mientras que Tallahassee, Florida, alcanzó los 90 grados.
La temperatura no se mide en una escala de proporción, ya que no tiene sentido afirmar que
Tallahassee era un 50 por ciento más cálida que Portland. Esto se debe principalmente a que la
escala Fahrenheit no utiliza los 0 grados como base natural.
Escala ordinal
Una variable pertenece a esta categoría sólo si satisface la tercera propiedad de la escala de
razón (es decir, ordenamiento natural). Algunos ejemplos son los sistemas de calificación
(grados A, B, C) o las clases de ingresos (alto, medio, bajo). Para estas variables el orden existe
pero las distancias entre las categorías no pueden cuantificarse. Los estudiantes de economía
recordarán las curvas de indiferencia entre dos bienes. Cada curva de indiferencia más alta
indica un nivel más alto de utilidad, pero no se puede cuantificar en qué medida se indiferencia.
La curva de referencia es más alta que las demás.
Escala nominal
Las variables de esta categoría no tienen ninguna de las características de las variables de
escala de razón. Variables como el género (masculino, femenino) y el estado civil (casado,
soltero, divorciado, separado) simplemente denotan categorías. Pregunta: ¿Cuál es la razón por
la que tales variables no se pueden expresar en escalas de razón, de intervalo u ordinales?
Como veremos, las técnicas econométricas que pueden ser adecuadas para la variación de
escalas de razones Las tablas pueden no ser adecuadas para variables de escala nominal. Por
lo tanto, es importante tener en cuenta las distinciones entre los cuatro tipos de escalas de
medición analizadas anteriormente.
En general, lo comentado anteriormente son los cuatro tipos de variables que se generan
encuentros aliados en el análisis empírico: estos son: escala de razón, escala de intervalo,
escala ordinal y escala nominal. Los tipos de variables que hemos encontrado en el análisis
previo Los capítulos anteriores fueron esencialmente de escala de razón. Pero esto no debería
dar la impresión de que los modelos de regresión sólo pueden tratar con variables de escala de
razón. Modo de regresión els también puede manejar otros tipos de variables mencionadas
anteriormente. En este capítulo, consideramos modelos que pueden involucrar no sólo variables
de escala de razón sino también variables nominales. variables de escala finales. Estas variables
también se conocen como variables indicadoras, variables categóricas, variables cualitativas o
variables ficticias.
60 CAPÍTULO 3 MÍNIMOS CUADRADOS ORDINARIOS

3.4.2 La naturaleza de las variables ficticias


En el análisis de regresión, la variable dependiente, o regresando, frecuentemente se ve influida
no sólo por variables de escala de razón (por ejemplo, ingreso, producción, precios, costos,
altura, temperatura, etc.). (peratura), sino también por variables que son esencialmente
cualitativas, o de escala nominal, por naturaleza, como sexo, raza, color, religión, nacionalidad,
región geográfica, agitaciones políticas y afiliación partidista. Por ejemplo, manteniendo
constantes todos los demás factores, se encuentra que las trabajadoras ganan menos que sus
homólogos masculinos o que los trabajadores no blancos ganan menos que los blancos.
Este patrón puede deberse a la discriminación sexual o racial, pero cualquiera que sea la
razón Por lo tanto, las variables cualitativas como el sexo y la raza parecen influir en el
regresante y claramente deben incluirse entre las variables explicativas o los regresores. Dado
que dichas variables suelen indicar la presencia o ausencia de una "cualidad" o un atributo, como
ser hombre o mujer, negro o blanco, católico o no católico, demócrata o
Republicano, son esencialmente variables de escala nominal. Una manera de “cuantificar”
tales atributos es construyendo variables artificiales que tomen valor. valores de 1 o 0, 1 indica la
presencia (o posesión) de ese atributo y 0 indica la ausencia de ese atributo. Por ejemplo, 1
puede indicar que una persona es mujer y 0 puede designar a un hombre; o 1 puede indicar que
una persona tiene un título universitario, y 0 que no lo es, y así sucesivamente. Las variables que
asumen valores de 0 y 1 se denominan variables ficticias.

3.4.3 Una única variable independiente ficticia


¿Cómo incorporamos información binaria en los modelos de regresión? En el caso más simple,
con una sola variable explicativa ficticia, simplemente la agregamos como variable
independiente. variable melladora en la ecuación. Por ejemplo, considere el siguiente modelo
simple de determinación de salario por hora:

salario =
^ 0 + 6 0 mujer +
^ 1 educación + u (3.13)

Usamos 5 0 como parámetro en femenino para resaltar la interpretación de las variables


ficticias multiplicadas por los parámetros; Más adelante usaremos la notación que sea más
conveniente. En el modelo (ecuación) anterior, sólo dos factores observados afectan los salarios:
el género y la educación. Debido a que mujer =1 cuando la persona es mujer, y mujer =0 cuando
la persona es hombre, el parámetro 5 0 tiene la siguiente interpretación: 5 0 es la diferencia en el
salario por hora entre mujeres y hombres, dada la misma cantidad de educación ( y el mismo
término de error € ). Por lo tanto, el coeficiente 5 0 determina si hay discriminación contra las
mujeres: si 5 0 < 0 , entonces, para el mismo nivel de otros factores, las mujeres ganan menos
que los hombres en promedio.
La situación se puede representar gráficamente como un cambio de intersección entre
hombres y mujeres. En la siguiente figura se muestra el caso 5 0 < 0 , por lo que los hombres
ganan un Öxed
3.4 VARIABLES Dummy 61

ganan más por hora que las mujeres. La diferencia no depende del nivel de educación, y esto
explica por qué los perfiles de educación salarial para mujeres y hombres son paralelos.

Figura 3.7: Gráfico de salario = B 0 + a 0 mujer +


B 1 educ + € por 8 0 <0
En este punto, quizás se pregunte por qué no incluimos también en (3.13) una variable
ficticia, digamos masculina, que es uno para los hombres y cero para las mujeres. Esto sería
redundante. En (3.13), la intersección para los hombres es
B 0 , y la intersección para las mujeres es
B 0 + 8 0 . Como hay sólo dos grupos, sólo necesitamos dos interceptos diferentes. Esto significa
que, además de
B 0 , necesitamos usar sólo una variable ficticia; Hemos
optado por incluir la variable ficticia para las mujeres. El uso de dos variables ficticias introduciría
una colinealidad perfecta porque mujer + hombre = 1 , lo que significa que hombre es una función
lineal perfecta de mujer. Incluir variables ficticias para ambos sexos es el ejemplo más simple de
la llamada trampa de variables ficticias , que surge cuando demasiadas variables ficticias describen
un número determinado de grupos. Discutiremos este problema en detalle más adelante.
En (3.13), hemos elegido a los hombres como grupo base o grupo de referencia, es decir, el
grupo con el que se hacen las comparaciones. Esta es la razón por
B 0 es la intercepción
para los hombres y 8 0 es la diferencia en las intersecciones entre mujeres y hombres. Podríamos
elegir mujeres como grupo base escribiendo el modelo como

salario = a 0 + TY 0 hombre +
^ 1 educación + u

donde el origen para las mujeres es 0 y el origen para los hombres es 0 + TY 0 ; este
62 CAPÍTULO 3 MÍNIMOS CUADRADOS ORDINARIOS

implica que un
0 =P 0 +50ya 0 +Y 0 = P 0 . En cualquier aplicación, no importa cómo elegimos
el grupo base, pero es importante realizar un seguimiento de qué grupo es el grupo base.
Algunos investigadores prefieren eliminar el intercepto general en el modelo e incluir
variables ficticias para cada grupo. La ecuación entonces sería salario =
P 0 macho + a
0 hembra +
P 1 educ + u , donde el intercepto para los hombres es
P 0 y la intersección para las
mujeres es 0 . En este caso no existe una trampa de variable ficticia porque no tenemos una
intersección general. Sin embargo, esta formulación tiene poco que ofrecer, ya que probar una
diferencia en las intersecciones es más difícil y no existe una manera generalmente aceptada de
calcular R cuadrado en regresiones sin intersección. Por lo tanto, siempre incluiremos una
intersección general para el grupo base.
Nada cambia mucho cuando están involucradas más variables explicativas. Tomando a los
hombres como grupo base, un modelo que controla la experiencia y la antigüedad además de la
educación es

salario =
P 0 + 5 0 mujer +
P 1 educación +
P 2 experto +
P 3 ten u re + u

Si educ, exper y tenure son características relevantes de productividad, la hipótesis nula de no


diferencia entre hombres y mujeres es H 0 : 5 0 = 0 . La alternativa de que hay discriminación
contra la mujer es H 1 : 5 0 < 0 .
¿Cómo podemos realmente comprobar la discriminación salarial? La respuesta es sencilla:
basta con estimar el modelo mediante MCO, exactamente como antes, y utilizar el estadístico t
habitual. Nada cambia en la mecánica de MCO o en la teoría estadística cuando algunas de las
variables independientes se definen como variables ficticias. La única diferencia con lo que
hemos hecho hasta ahora está en la interpretación del coeficiente de la variable ficticia.
Volveremos a esta pregunta cuando analicemos un capítulo sobre prueba de hipótesis.
Capítulo 4

Modelo clásico de regresión lineal

4.1 Objetivos de aprendizaje


Al final de este capítulo tendrá una buena comprensión de

• Los supuestos que subyacen al método de regresión MCO clásico analizado en el


capítulo anterior

• Las consecuencias de los supuestos.

• Breve introducción de las consecuencias de las violaciones de los supuestos.

• El teorema de GaussñMarkov y las propiedades de los estimadores MCO.

4.2 Introducción
El término clásico se refiere a un conjunto de supuestos bastante básicos que deben cumplirse
para que MCO sea considerado el "mejor" estimador disponible para los modelos de regresión.
Cuando uno o más de estos supuestos no se cumplen, otras técnicas de estimación (como los
mínimos cuadrados generalizados) pueden ser mejores que los MCO. Como resultado, una de
las tareas más importantes del análisis de regresión es decidir si los supuestos clásicos se
cumplen para una ecuación particular. De ser así, la técnica de estimación MCO es la mejor
disponible. De lo contrario, se deben sopesar los pros y los contras de técnicas de estimación
alternativas. Estas alternativas suelen ser ajustes a los MCO que tienen en cuenta el supuesto
particular que se ha violado. En cierto sentido, la mayor parte del resto del estudio en
econometría trata de una forma u otra de la cuestión de qué hacer cuando no se cumple uno de
los supuestos clásicos. Dado que los econometristas dedican tanto tiempo a analizar sus
violaciones, es crucial que conozcan y comprendan estos supuestos.

5
9
60 CAPÍTULO 4 MODELO DE REGRESIÓN LINEAL CLÁSICO

4.3 Los supuestos clásicos


Se deben cumplir los supuestos clásicos para que los estimadores MCO sean los mejores
disponibles. Debido a su importancia en el análisis de regresión, los supuestos se presentan a
continuación. Los supuestos clásicos son:

• El modelo de regresión es lineal, está especificado correctamente y tiene un término de


error aditivo.

• El término de error tiene una media poblacional cero.

• Todas las variables explicativas no están correlacionadas con el término de error.

• Las observaciones del término de error no están correlacionadas entre sí (sin correlación
serial)

• El término de error tiene una varianza constante (sin heterocedasticidad)

• Ninguna variable explicativa es una función lineal perfecta de cualquier otra variable
explicativa (sin multicolinealidad perfecta)

• El término de error tiene una distribución normal (esta suposición es opcional pero
normalmente se invoca)

Se supone que el modelo de regresión es lineal:

Universidad de Addis Abeba, Oficina de Educación Continua y a Distancia............1


28 de febrero de 2018..................................................................................................1
Contenido...........................................................................................................................ii
Chapter 1.............................................................................................................................1
Introducción........................................................................................................................1
1.1 ¿Por qué estudiar econometría?...........................................................................1
1.2 El objetivo principal de este módulo...................................................................2
1.3 Los resultados del aprendizaje.............................................................................2
1.4 Requisitos previos................................................................................................3
1.5 Recursos...............................................................................................................3
Chapter 2.............................................................................................................................4
Introducción a la econometría............................................................................................4
2.1 ¿Qué es la econometría?......................................................................................5
2.2 ¿Qué es el análisis de regresión?.........................................................................7
2.3 Modelos lineales de una sola ecuación................................................................9
2.4 El término de error estocástico............................................................................9
2.4.1 La importancia del término de perturbación estocástica............................10
4.3 LOS SUPUESTOS CLÁSICOS 61

2.5 Algunos puntos sobre notaciones.......................................................................12


2.6 La ecuación de regresión estimada....................................................................14
2.7 Estructuras de datos económicos.......................................................................15
2.7.1 Datos transversales.....................................................................................15
2.7.2 Datos de series de tiempo...........................................................................16
2.7.3 Secciones transversales agrupadas.............................................................17
2.7.4 Datos de panel o longitudinales..................................................................17
2.8 Introducción a Stata................................................................................................23
Capítulo 3.........................................................................................................................39
Mínimos cuadrados ordinarios.........................................................................................39
3.1 Introducción.......................................................................................................39
3.2 Objetivos de aprendizaje....................................................................................39
3.3 Estimación de la modificación de una sola variable independiente els con OLS
40
3.3.1 ¿Por qué utilizar mínimos cuadrados ordinarios?.......................................43
3.4 Variables ficticias....................................................................................................57
3.4.1 Una nota sobre las escalas de medición de variables.................................58
3.4.2 La naturaleza de las variables ficticias.......................................................60
3.4.3 Una única variable independiente ficticia..................................................60
Capítulo 4.........................................................................................................................59
Modelo clásico de regresión lineal...................................................................................59
4.1 Objetivos de aprendizaje....................................................................................59
4.2 Introducción.......................................................................................................59
4.3 Los supuestos clásicos.......................................................................................60
4.4 La distribución muestral de B.................................................................................67
4.4.1 Propiedades de la media.............................................................................68
4.4.2 Propiedades de la varianza.........................................................................68
4.5 El teorema de Gauss-Markov..................................................................................70
Capítulo 5.........................................................................................................................71
Prueba de hipótesis e inferencia estadística......................................................................71
5.1 Introducción.......................................................................................................71
5.2 Objetivos de aprendizaje....................................................................................72
5.3 Introducción.......................................................................................................72
5.3.1 Hipótesis nulas y alternativas clásicas........................................................73
5.3.2 Errores tipo I y tipo II.................................................................................74
5.3.3 Reglas de decisión de la prueba de hipótesis..............................................75
62 CAPÍTULO 4 MODELO DE REGRESIÓN LINEAL CLÁSICO

5.4 la prueba t...........................................................................................................77


5.4.1 El estadístico t.............................................................................................77
5.4.2 El valor t crítico y la regla de decisión de la prueba t................................79
5.4.3 Elegir un nivel de significancia..................................................................80
5.4.4 Valor p........................................................................................................81
5.5 Limitaciones de la prueba t................................................................................83
5.6 Intervalo de confianza........................................................................................84
5.7 La prueba F........................................................................................................85
5.7.1 ¿Qué es la prueba F?...................................................................................85
Capítulo 6.........................................................................................................................87
Violación de supuestos clásicos.......................................................................................87
6.1 Introducción.......................................................................................................87
6.2 Objetivos de aprendizaje....................................................................................87
6.3 Multicolinealidad...............................................................................................88
6.3.1 Pruebas de multicolinealidad......................................................................91
6.3.2 Remedios para la multicolinealidad...........................................................93
6.4 Correlación serial....................................................................................................93
6.4.1 Series de tiempo..........................................................................................94
6.4.2 Correlación serial pura................................................................................94
6.4.3 Correlación serial impura...........................................................................96
6.4.4 Consecuencias de la correlación serial.......................................................98
6.4.5 Detección de correlación serial...................................................................98
6.5 Heterocedasticidad..................................................................................................99
1.1.1 Las consecuencias de la heterocedasticidad.............................................105
1.1.2 Pruebas de heterocedasticidad..................................................................106
6.5.3 Remedios para la heterocedasticidad.............................................................110
Capítulo 7.......................................................................................................................113
Modelos de regresión para variables categóricas y dependientes limitadas...................113
7.1 Objetivos de aprendizaje..................................................................................113
7.2 Introducción.....................................................................................................114
7.3 El modelo logit......................................................................................................115
7.3.1 Datos a nivel individual............................................................................117
7.3.2 Medidas de bondad de Öt.........................................................................119
7.4 Modelos de regresión multinomial.......................................................................120
7.4.1 MRM nominal para datos específicos de elección...................................121
7.5 Modelos de regresión ordinal................................................................................124
4.3 LOS SUPUESTOS CLÁSICOS 63

7.5.1 Modelo Logit ordinal................................................................................126


Capítulo 8.......................................................................................................................128
Preguntas de revisión......................................................................................................128
Bibliografía.....................................................................................................................135

En la última ecuación de la diapositiva anterior, las propiedades del estimador MCO del
P s todavía se cumple porque la ecuación es lineal
También deben mantenerse dos propiedades adicionales.
Primero, asumimos que la ecuación está especificada correctamente. Si una ecuación tiene
una variable omitida o una forma funcional incorrecta, las probabilidades están en contra de esa
ecuación.

Trabajando bien. En segundo lugar, suponemos que se ha agregado un término de error


estocástico a la ecuación. Este término de error debe ser aditivo y no puede multiplicarse ni
dividirse por ninguna de las variables de la ecuación. Como señalamos en discusiones
anteriores, los econometristas agregan un término de error estocástico (aleatorio) a las
ecuaciones de regresión para explicar la variación en la variable dependiente que no se explica
por las variables independientes incluidas en el modelo. El valor específico del término de error
para cada observación se determina puramente por casualidad. Probablemente la mejor manera
de imaginar este concepto es pensar que cada observación del término de error se extrae de
una distribución de variable aleatoria como la que se ilustra en la Figura de la siguiente
diapositiva.
El supuesto clásico 2 dice que la media de esta distribución es cero. Es decir, cuando se
considera toda la población de valores posibles para el término de error estocástico, el valor
promedio de esa población es cero. Para una muestra pequeña, no es probable que la media
sea exactamente cero, pero a medida que el tamaño de la muestra se acerca a la infinita, la
media de la muestra se acerca a cero. ¿Qué pasa si la media no es igual a cero en una
muestra? Siempre que tenga un término constante en la ecuación, la estimación de
B 0 absorberá la media distinta de cero.
En esencia, el término constante es igual a la porción fijada de Y que no puede ser ex
explicado por las variables independientes, y el término de error es igual al porcentaje
64 CAPÍTULO 4 MODELO DE REGRESIÓN LINEAL CLÁSICO

estocástico ción del valor inexplicable de Y .

Se supone que las observaciones de los términos de error estocástico se extraen de una
distribución de variable aleatoria con media cero. Si se cumple el Supuesto Clásico II, el valor
esperado (la media) del término de error es cero.
Todas las variables explicativas no están correlacionadas con el término de error. Se
supone que los valores observados de las variables explicativas son independientes de los
valores del término de error. Si una variable explicativa y el término de error estuvieran
correlacionados entre sí, las estimaciones de MCO probablemente atribuirían a X parte de la
variación en Y que en realidad provino del término de error. Si el término de error y X estuvieran
correlacionados positivamente, por ejemplo, entonces el coeficiente estimado probablemente
sería mayor de lo que habría sido de otro modo (sesgado hacia arriba), porque el programa
MCO atribuiría erróneamente la variación en Y causada por € a X en cambio. Como resultado,

es importante asegurarse de que las variables explicativas no estén correlacionadas con el


término de error. El Supuesto Clásico III se viola con mayor frecuencia cuando un investigador
omite una variable independiente importante de una ecuación. Como comentamos en las clases
anteriores, uno de los componentes principales del término de error estocástico son las
variables omitidas, por lo que si se ha omitido una variable, entonces el término de error
cambiará cuando cambie la variable omitida. Si esta variable omitida está correlacionada con
una variable independiente incluida (como suele suceder en economía), entonces el término de
error también está correlacionado con esa variable independiente. ¡Hemos violado la Asunción
III! Debido a esta infracción, OLS atribuirá el impacto de la variable omitida a la variable incluida,
en la medida en que las dos variables estén correlacionadas.
Las observaciones del término de error se extraen independientemente unas de otras. Si
existe una correlación sistemática entre una observación del término de error y otra, entonces
las estimaciones de MCO serán menos precisas que las estimaciones que tienen en cuenta la
correlación. ción. Por ejemplo, si el hecho de que el € de una observación sea positivo aumenta
la probabilidad de que el € de otra observación también sea positivo, entonces las dos
observaciones del término de error están correlacionadas positivamente. Tal correlación violaría
el Supuesto Clásico IV. En aplicaciones económicas, este supuesto es más importante en los
modelos de series de tiempo.
4.3 LOS SUPUESTOS CLÁSICOS 65

En tal contexto, el Supuesto IV dice que un aumento en el término de error en un período de


tiempo (un shock aleatorio, por ejemplo) no aparece ni afecta de ninguna manera el término de
error en otro período de tiempo. Sin embargo, en algunos casos esta suposición no es realista,
ya que los efectos de un shock aleatorio a veces duran varios períodos de tiempo. Si, sobre
todas las observaciones de la muestra, € t +1 está correlacionado con € , entonces se dice que
t

el término de error está correlacionado serialmente (o autocorrelacionado) y se viola el


Supuesto IV. La varianza (o dispersión) de la distribución de la que se extraen las
observaciones del término de error es constante. Es decir, se supone que las observaciones del
término de error se extraen continuamente de distribuciones idénticas (por ejemplo, la que se
muestra en la siguiente diapositiva).

La alternativa sería que la varianza de la distribución del término de error cambie para cada
observación o rango de observaciones.

En la figura de la siguiente diapositiva, por ejemplo, se muestra que la varianza del término
de error aumenta a medida que aumenta la variable Z ; tal patrón viola el Supuesto Clásico V.
Los valores reales del término de error no son directamente observables, pero la falta de
una varianza constante para la distribución del término de error hace que genere MCO. Comió
estimaciones inexactas del error estándar de los coeficientes. La violación del Supuesto V se
denomina heterocedasticidad .
La colinealidad perfecta entre dos variables independientes implica que son re aliada la
misma variable, o que una es múltiplo de la otra, y/o que a una de las variables se le ha sumado
una constante. Es decir, los movimientos relativos de una variable explicativa coincidirán
exactamente con los movimientos relativos de la otra, aunque el tamaño absoluto de los
movimientos pueda diferir. Porque cada movimiento Si el movimiento de una de las variables
coincide exactamente con un movimiento relativo en la otra, el procedimiento de estimación
MCO será incapaz de distinguir una variable de la otra. Muchos casos de colinealidad perfecta
(o multicolinealidad si están involucradas más de dos variables independientes) son el resultado
de que el investigador no tiene en cuenta búsqueda de identidades (equivalencias
66 CAPÍTULO 4 MODELO DE REGRESIÓN LINEAL CLÁSICO

deÖnicionales) entre las variables independientes. Este problema se puede corregir fácilmente
eliminando una de las variables perfectamente colineales de la ecuación. ¿Cuál es un ejemplo
de multicolinealidad perfecta?
Suponga que decide construir un modelo de los beneficios de las tiendas de llantas en su
ciudad e incluye las ventas anuales de llantas (en dólares) en cada tienda y el impuesto anual
sobre las ventas pagado por cada tienda como variables independientes. Dado que todas las
tiendas de neumáticos están en la misma ciudad, todas pagan el mismo porcentaje de impuesto
sobre las ventas, por lo que el impuesto sobre las ventas pagado será un porcentaje constante
de sus ventas totales (en dólares). Si la tasa del impuesto sobre las ventas es del 7%, entonces
el total de impuestos pagados será el 7% de las ventas para todas y cada una de las tiendas de
llantas. Por lo tanto, el impuesto sobre las ventas será una función lineal perfecta de las ventas
y ¡tendrá una multicolinealidad perfecta!
Aunque ya hemos asumido que las observaciones del término de error se extraen
independientemente (Supuesto IV) de una distribución que tiene una media cero (Supuesto ción
II) y que tiene una varianza constante (Supuesto V), poco hemos dicho sobre

la forma de esa distribución.


El supuesto VII establece que las observaciones del término de error se extraen de una
distribución que es normal (es decir, en forma de campana y que generalmente sigue la
simetría). patrón rico representado en la figura de la siguiente diapositiva). Este supuesto de
normalidad no es necesario para la estimación de MCO. Su principal aplicación es en pruebas
de hipótesis e intervalos de confianza, que utilizan el coeficiente de regresión estimado para
investigar. hipótesis de entrada sobre el comportamiento económico. La prueba de hipótesis es
el tema del próximo capítulo y, sin el supuesto de normalidad, la mayoría de las pruebas de
muestras pequeñas de ese capítulo no serían válidas.
Aunque el Supuesto VII es opcional, suele ser aconsejable añadir el supuesto de
normalidad a los otros seis supuestos por dos razones:
1. El término de error € i puede considerarse como la suma de una serie de influencias o
errores menores. A medida que aumenta el número de estas influencias menores, la distribución
del término de error tiende a acercarse a la distribución normal.
2. El estadístico t y el estadístico F , que se analizarán en el próximo capítulo, no son
verdaderamente aplicables a menos que el término de error tenga una distribución normal. Un
4.3 LOS SUPUESTOS CLÁSICOS 67

vistazo rápido a la figura de la diapositiva anterior muestra cómo difieren las distribuciones
normales cuando las medias y las varianzas son diferentes. En la distribución normal A (una
distribución normal estándar), la media es 0 y la varianza es 1; en la distribución normal B, la
media es 2 y la varianza es 0,5. Cuando la media es diferente, toda la distribución cambia.
Cuando la varianza es diferente, la distribución se vuelve más gruesa o más delgada.

s
4.4 La distribución muestral de B

Así como el término de error sigue una distribución de probabilidad, también lo hacen las
estimaciones de B. De hecho, cada muestra diferente de datos normalmente produce una
estimación diferente de B. La distribución de probabilidad de estos valores ^ entre diferentes
muestras se denomina distribución muestral de B. Recuerde que un estimador es una fórmula,
como la

fórmula MCO
norte
2[ ( X yo - X ) ( Y yo - Y )]
3, = tl—n---------------------------------- (4.5)
X^
X yo ^ X) 2 yo =1

eso le indica cómo calcular b , mientras que una estimación es el valor de b calculado mediante
la fórmula para una muestra determinada. Como los investigadores suelen tener una sola
muestra, los econometristas principiantes suelen suponer que el análisis de regresión puede
producir sólo una estimación de b para una población determinada.
En realidad, sin embargo, cada muestra diferente de la misma población producirá una
estimación diferente de
b . La colección de todas las muestras posibles tiene una distribución,
con una media y una varianza, y necesitamos discutir las propiedades de esta distribución
muestral de b , aunque en la mayoría de las aplicaciones reales encontraremos sólo una
extracción de ella. Asegúrese de recordar que una distribución muestral se refiere a la
distribución de diferentes valores de b en diferentes muestras, no dentro de una.
Por lo general, se supone que estos b tienen una distribución normal porque la normalidad
del término de error implica que las estimaciones de MCO de
b también se distribuyen normalmente.
Para que una técnica de estimación sea "buena", la media de la distribución muestral de los b s
que produce debe ser igual a la población real b . Esta propiedad tiene un nombre especial en
econometría: imparcialidad . Aunque no sabemos la verdad
b en este
caso, es probable que si tomáramos suficientes muestras (quizás miles) la media de —
b s se acercaría al verdadero b . La moraleja de la historia es que, si bien una sola muestra
proporciona una única estimación de
b , esa estimación proviene de una distribución muestral con
68 CAPÍTULO 4 MODELO DE REGRESIÓN LINEAL CLÁSICO

una media y una varianza. Es muy probable que otras estimaciones de esa distribución muestral
sean diferentes.
Cuando analicemos las propiedades de los estimadores en la siguiente sección, será
importante Es importante recordar que estamos analizando las propiedades de una distribución
muestral, no las propiedades de una muestra.

4.4.1 Propiedades de la media


Una propiedad deseable de una distribución de estimaciones es que su media sea igual a la
media verdadera de la variable que se estima. Un estimador que produce tales estimaciones se
llama estimador insesgado.
Un estimador b es un estimador insesgado si su distribución muestral tiene como valor
esperado el valor verdadero de
b

mi (b) = segundo (4.6)

En la práctica sólo se obtiene un valor de b , pero la propiedad de insesgación es útil porque


una estimación única extraída de una distribución insesgada es más

probablemente esté cerca del valor verdadero (asumiendo varianzas idénticas) que uno tomado
de una distribución no centrada alrededor del valor verdadero. Si un estimador produce ^ s que
no están centrados alrededor del verdadero
B , el estimador se denomina estimador sesgado.
No podemos asegurar que cada estimación de un estimador insesgado sea mejor que cada
estimación de uno sesgado, porque una estimación insesgada particular podría, por casualidad,
estar más lejos del valor real que una estimación sesgada. Esto podría suceder por casualidad o
porque el estimador sesgado tenía una varianza menor.

4.4.2 Propiedades de la varianza


Así como nos gustaría que la distribución de ^ s se centrara en la población real
4.3 LOS SUPUESTOS CLÁSICOS 69

B , también nos gustaría que la distribución fuera lo más estrecha (o precisa)


posible. Una distribución centrada en la verdad pero con una varianza extremadamente grande
podría ser de muy poca utilidad porque cualquier estimación dada probablemente estaría lejos
de la verdadera.
Valor B. Para una distribución ^ con una varianza pequeña, es probable que
las estimaciones se acerquen a la media de la distribución muestral.
Para ver esto más claramente, compare las distribuciones A y B (ambas son insesgadas) en
la figura de la siguiente diapositiva. La distribución A, que tiene una varianza mayor que la
distribución B, es menos precisa que la distribución B.
A efectos de comparación, también se muestra una distribución sesgada (distribución C);
Tenga en cuenta que el sesgo implica que el valor esperado de la distribución está a la derecha
o a la izquierda del verdadero.
B.

La varianza de la distribución de ^ s se puede disminuir aumentando el tamaño de la


muestra.
Esto también aumenta los grados de libertad, ya que el número de grados de libertad es
igual al tamaño de la muestra menos el número de coeficientes o parámetros estimados. A
medida que aumenta el número de observaciones, y los demás factores se mantienen
constantes, la varianza de la distribución muestral tiende a disminuir. Aunque no es cierto que
una muestra de 60 siempre producirá estimaciones más cercanas a la verdad que una muestra
de 6, es muy probable que así sea; Se deben buscar muestras tan grandes. La figura de la
siguiente diapositiva presenta distribuciones muestrales ilustrativas de b s para 6, 60 y 600
observaciones para estimadores MCO de cuando el verdadero es igual a 1. De hecho, las
muestras más grandes producen distribuciones muestrales que se centran más estrechamente
en torno a
b.

Figura 4.1: Distribución muestral de b para varios tamaños de observación

La poderosa lección ilustrada por la figura en la diapositiva anterior es que si desea


maximizar sus posibilidades de obtener una estimación cercana al valor real, aplique MCO a
una muestra grande. No hay garantía de que obtendrá una estimación más precisa a partir de
70 CAPÍTULO 4 MODELO DE REGRESIÓN LINEAL CLÁSICO

una muestra grande, pero sus posibilidades son mayores. Las muestras más grandes, en
igualdad de condiciones, tienden a dar como resultado estimaciones más precisas. Y si el
estimador es insesgado, las estimaciones más precisas son estimaciones más precisas.
En econometría, debemos confiar en las tendencias generales. El elemento de azar, una
ocurrencia aleatoria, siempre está presente al estimar los coeficientes de regresión, y algunas
estimaciones pueden estar lejos del valor real, sin importar cuán buena sea la técnica de
estimación. Sin embargo, si la distribución se centra en el valor real y tiene una varianza lo más
pequeña posible, es menos probable que el elemento de azar induzca una estimación
deficiente. Si la distribución muestral se centra en un valor distinto del verdadero b (es decir, si b
está sesgado), entonces una varianza menor implica que la mayor parte de la distribución
muestral de b se concentra en el valor incorrecto. Sin embargo, si este valor no es muy diferente
del valor real, que normalmente no se conoce en la práctica, entonces la mayor precisión
seguirá siendo valiosa. Un método para decidir si esta varianza reducida en la distribución de
las bs es lo suficientemente valiosa como para compensar el sesgo es comparar diferentes
técnicas de estimación utilizando una medida llamada error cuadrático medio (MSE).
El error cuadrático medio es igual a la varianza más el cuadrado del sesgo. Cuanto menor
sea el MSE, mejor.
Un elemento final de importancia es que a medida que aumenta la varianza del término de
error, también aumenta la varianza de la distribución de b. • La razón del aumento de la varianza
de b es que con la varianza mayor de € i , los valores más extremos de €i se observan con más
frecuencia y el término de error se vuelve más importante para determinar los valores de Y i .
Dado que el error estándar del coeficiente estimado, SE (3), es la raíz cuadrada de la varianza
estimada de ^ s, se ve afectado de manera similar por el tamaño de la muestra y los otros
factores que hemos mencionado. Por ejemplo, un aumento en el tamaño de la muestra hará que
SE (3) caiga; cuanto mayor sea la muestra, más precisas serán nuestras estimaciones del
coeficiente.

4.5 El teorema de Gauss-Markov


El teorema de Gauss-Markov demuestra dos propiedades importantes de los estimadores MCO.
La demostración de este teorema se analiza en todos los cursos avanzados de econometría,
pero para un usuario de regresión, es más importante saber lo que implica el teorema que poder
demostrarlo. El teorema de Gauss-Markov establece que:
Dados los supuestos clásicos I a VI (el supuesto VII, normalidad, no es necesario para este
teorema), el estimador de mínimos cuadrados ordinarios de
P es el estimador de
k

varianza mínima entre el conjunto de todos los estimadores lineales insesgados de


P k ,
para k=0;1;2;:::;K .
El teorema de Gauss-Markov quizás se recuerde más fácilmente afirmando que "OLS es
AZUL", donde AZUL significa "Mejor (es decir, varianza mínima) Estimador lineal insesgado".
4.3 LOS SUPUESTOS CLÁSICOS 71

Los estudiantes que puedan olvidar que "mejor" significa varianza mínima podrían beneficiarse
mejor si recuerdan "OLS es MvLUE". ,î pero una frase así no es fácil de recordar ni de
enganchar. Si la estimación del coeficiente de una ecuación es insesgada (es decir, si cada uno
de los coeficientes estimados es producido por un estimador insesgado del verdadero
coeficiente poblacional), entonces:

mi (3,
)=P k (k=0;1;2;:::;K) (4.7)

Mejor significa que cada P k tiene la varianza más pequeña posible (en este caso, de todos los
estimadores lineales insesgados de
Paquete ) . Un estimador insesgado con la varianza más
pequeña se llama eficiente y se dice que ese estimador tiene la propiedad de eficiencia. Dado
que la varianza normalmente disminuye a medida que aumenta el tamaño de la muestra, las
muestras más grandes casi siempre producen estimaciones de coeficientes más precisas que
las más pequeñas.
El teorema de Gauss-Markov requiere que se cumplan sólo los primeros seis de los siete
supuestos clásicos. ¿Qué sucede si agregamos el séptimo supuesto de que el término de error
tiene una distribución normal? En este caso, el resultado del teorema de Gauss-Markov se
fortalece porque se puede demostrar que el estimador MCO es el mejor estimador insesgado
(varianza mínima) de todos los estimadores posibles, no solo de los estimadores lineales. En
otras palabras, si se cumplen los siete supuestos, MCO es "BUE".
Dados los siete supuestos clásicos, se puede demostrar que los estimadores del coeficiente
MCO tienen las cuatro propiedades que se analizan en la siguiente diapositiva.
4.5 EL TEOREMA DE GAUSS - MARKOV 72

—\^
) = ^ . Esto significa que las estimaciones MCO de
los coeficientes se centran en los valores poblacionales reales de los parámetros que se
estiman.
2. Tienen una varianza mínima. La distribución de las estimaciones del coeficiente
alrededor de los valores verdaderos de los parámetros está tan estrechamente distribuida como
es posible para una distribución insesgada. Ningún otro estimador insesgado tiene una varianza
menor para cada coeficiente estimado que MCO.
3. Son consistentes. A medida que el tamaño de la muestra se acerca a la unidad, las
estimaciones convergen a los verdaderos parámetros poblacionales. Dicho de otra manera, a
medida que aumenta el tamaño de la muestra, la varianza se reduce y cada estimación se
aproxima al valor real del coeficiente que se está estimando.
4. Se distribuyen normalmente. Los s son N
(3 ; VAR (3) ^.Así varias sta De hecho,
se pueden aplicar pruebas estadísticas basadas en la distribución normal a estas estimaciones.
compañeros, como se hará en el próximo capítulo.
Capítulo 5

Prueba de hipótesis e inferencia estadística

5.1 Introducción

En este capítulo volvemos a la esencia de la econometría (un esfuerzo por cuantificar las
relaciones económicas mediante el análisis de datos muestrales) y nos preguntamos qué
conclusiones podemos extraer de esta cuantificación. La prueba de hipótesis va más allá del
cálculo de estimaciones. compañeros de los verdaderos parámetros poblacionales a un conjunto
de preguntas mucho más complejo. Las pruebas de hipótesis y la inferencia estadística nos
permiten responder preguntas importantes sobre el mundo real a partir de una muestra. ¿Es
probable que nuestro resultado se haya obtenido por casualidad? ¿Los resultados generados a
partir de nuestra muestra nos llevarían a rechazar nuestras teorías originales? ¿Qué tan seguros
podemos estar de que nuestra estimación se aproxima al valor real del parámetro? Este capítulo
comienza con una breve introducción al tema de la prueba de hipótesis. Luego examinamos la
prueba t, típicamente utilizada para pruebas de hipótesis de coeficientes de regresión
individuales. A continuación analizamos el intervalo de confianza, una herramienta para evaluar
la precisión de nuestras estimaciones, y finalizamos el capítulo aprendiendo cómo utilizar la
prueba F para determinar si grupos completos de coeficientes afectan a la variable dependiente.
Las pruebas de hipótesis y la prueba t deberían ser temas familiares para los lectores con
una sólida formación en estadística, a quienes se les anima a leer este capítulo y centrarse sólo
en aquellas aplicaciones que parezcan algo nuevas. Sin embargo, el desarrollo de los
procedimientos de prueba de hipótesis se explica aquí en términos del modelo de regresión, por
lo que algunas partes del capítulo pueden resultar instructivas incluso para quienes ya tienen
conocimientos de estadística.
Nuestro enfoque será de naturaleza clásica, ya que suponemos que los datos muestrales
son nuestra mejor y única información sobre la población. Una alternativa, la estadística
bayesiana, utiliza una definición de probabilidad completamente diferente y no utiliza el concepto
de distribución muestral.

7
1
72CAPÍTULO 5 PRUEBAS DE HIPÓTESIS E INFERENCIA ESTADÍSTICA

5.2 Objetivos de aprendizaje


Según el material de este capítulo, debería poder

• Explique el “nivel de confianza” de un estimador de intervalo y exactamente qué significa


en un contexto de muestreo repetido, y dé un ejemplo.

• Explique la diferencia entre un estimador de intervalo y una estimación de intervalo.


Explique cómo interpretar una estimación de intervalo.

• Explique los términos hipótesis nula, hipótesis alternativa y región de rechazo, dando un
ejemplo y un bosquejo de la región de rechazo.

• Explique la lógica de una prueba estadística, incluido por qué es importante que una
estadística de prueba tenga una distribución de probabilidad conocida si la hipótesis nula
es verdadera.

• Explicar el término valor p y cómo utilizar un valor p para determinar el resultado de una
prueba de hipótesis; Proporcione un boceto que muestre el valor p.

• Explique la diferencia entre pruebas de una y dos colas. Explique, intuitivamente, cómo
elegir la región de rechazo para una prueba de una cola.

• Explica el error tipo I e ilustralo en un boceto.

• Definir el nivel de significación de una prueba.

• Explique la diferencia entre significancia económica y estadística.

• Explique cómo elegir lo que va en la hipótesis nula y lo que va en la hipótesis alternativa.

5.3 Introducción
Muchas hipótesis sobre el mundo que nos rodea pueden formularse como preguntas de sí o no.
¿Los ingresos mensuales medios de los recién graduados universitarios etíopes equivalen a
10.000,00 ETB al mes? ¿Son los mismos ingresos medios para hombres y mujeres graduados
universitarios? Ambas preguntas incorporan hipótesis específicas sobre la distribución de los
ingresos de la población. El desafío estadístico es responder estas preguntas basándose en una
muestra de evidencia. En este capítulo describimos pruebas de hipótesis relativas a la media
poblacional (¿La media poblacional de ingresos mensuales es igual a ETB10.000,00?). hola
Pruebas de hipótesis que involucran dos poblaciones (¿Son los ingresos medios iguales para
hombres y mujeres?).
5.3 INTRODUCCIÓN 73

5.3.1 Hipótesis nulas y alternativas clásicas


El primer paso en la prueba de hipótesis es establecer las hipótesis que se van a probar. Esto
debe hacerse antes de estimar la ecuación porque las hipótesis desarrolladas después de la
estimación corren el riesgo de ser justificaciones de resultados particulares en lugar de pruebas
de la validez de esos resultados. La hipótesis nula suele ser una declaración de valores que el
investigador no espera. La notación utilizada para especificar la hipótesis nula es "H0:" seguida
de una declaración del rango de valores que no espera.
Por ejemplo, si espera un coeficiente positivo, entonces no espera un coeficiente cero o
negativo, y la hipótesis nula es:

La hipótesis nula es H 0 :
p K 0 (los valores que no esperas) (5.1)

La hipótesis alternativa suele ser una declaración de los valores que espera el investigador.
La notación utilizada para especificar la hipótesis alternativa es "H A :", seguida de una
declaración del rango de valores que espera. Para continuar con nuestro ejemplo anterior, si
espera un coeficiente positivo, entonces la hipótesis alternativa es:

La hipótesis alternativa es H : p > 0 (los valores esperados) (5.2)


A

Para ponerte a prueba, tómate un momento y piensa cuáles serán las hipótesis nula y
alternativa si esperas un coeficiente negativo.

H0:p>0 (5.3)
HA : p<0

Las hipótesis anteriores son para una prueba unilateral porque la alternativa hy Las hipótesis
tienen valores en un solo lado de la hipótesis nula. Otro enfoque es utilizar una prueba de dos
colas (o una prueba de dos colas) en la que la hipótesis alternativa tiene valores en ambos lados
de la hipótesis nula.

H0:p=0 (5.4)
HA:p6=0

Tenga en cuenta que la hipótesis nula y la hipótesis alternativa se agotan conjuntamente.


tivo. Obsérvese también que los economistas siempre expresan lo que esperan en la hipótesis
alternativa. Esto nos permite hacer afirmaciones bastante contundentes cuando rechazamos una
hipótesis nula. Sin embargo, nunca podemos decir que aceptamos la hipótesis nula; Siempre
debemos decir que no podemos rechazar la hipótesis nula . Según lo dicho por un Econo Métrico:
Así como un tribunal pronuncia un veredicto como no culpable en lugar de inocente, la conclusión de una
prueba estadística es no rechazar en lugar de aceptar .
74CAPÍTULO 5 PRUEBAS DE HIPÓTESIS E INFERENCIA ESTADÍSTICA

5.3.2 Errores tipo I y tipo II


La técnica de prueba típica en econometría es plantear la hipótesis de un signo (o valor)
esperado para cada coeficiente de regresión (excepto el término constante) y luego determinar si
se rechaza la hipótesis nula. Dado que los coeficientes de regresión son sólo estimaciones de
los verdaderos parámetros poblacionales, no sería realista pensar que las conclusiones
extraídas del análisis de regresión siempre serán correctas. Hay dos tipos de errores que
podemos cometer en dicha prueba de hipótesis:

Tipo I : Rechazamos una hipótesis nula verdadera.


Tipo II : No rechazamos una hipótesis nula falsa

Nos referiremos a estos errores como errores de tipo I y tipo II, respectivamente.
Supongamos que tenemos las siguientes hipótesis nula y alternativa:

H0:B<0 (5.5)
HA : 8 <0

Incluso si el verdadero parámetro


B no es positiva, la estimación particular obtenida por un
investigador puede ser lo suficientemente positiva como para llevar al rechazo de la hipótesis
nula de que
pag < 0 . Este es un error de tipo I; ¡Hemos rechazado la verdad! Alternativamente, es
posible obtener una estimación de
B que es lo suficientemente cercano a cero (o negativo)
para ser considerado "no significativamente positivo". Tal resultado puede llevar al investigador a
"aceptar" la hipótesis de que p < 0 cuando en verdad
pag > 0 . Este es un error de tipo II;
¡Hemos fracasado en rechazar una hipótesis nula falsa!
Supongamos que estamos tratando con la evaluación del impacto de una determinada
intervención, ¿qué significan estos errores? Un error tipo I ocurre cuando una evaluación
concluye que un programa ha tenido impacto, cuando en realidad no tuvo impacto. Un error tipo
II ocurre cuando una evaluación concluye que el programa no ha tenido impacto, cuando en
realidad sí ha tenido impacto. Podemos generalizar la discusión de los errores de Tipo I y Tipo II
de la siguiente manera:

Rechazar H No rechaces a Ho

H es verdad error tipo 1 decisión correcta


ho es falso decisión correcta Error tipo II

Figura 5.1: Errores tipo I y II


5.3 INTRODUCCIÓN 75

5.3.3 Reglas de decisión de la prueba de hipótesis


Una regla de decisión es un método para decidir si se rechaza una hipótesis nula. Normalmente,
una regla de decisión implica comparar una estadística de muestra con un valor crítico
preseleccionado.
76CAPÍTULO 5 PRUEBAS DE HIPÓTESIS E INFERENCIA ESTADÍSTICA

se encuentran en tablas en anexos de casi todos los textos de estadística o economía. Se debe
formular una regla de decisión antes de obtener estimaciones de regresión. El rango de valores
posibles de ^ se divide en dos regiones, una región de “aceptación” y una región de rechazo,
donde los términos se expresan en relación con la hipótesis nula. Para definir estas regiones,
debemos determinar un valor crítico (o, para una prueba de dos colas, dos valores críticos) de A
^. Por tanto, un valor crítico es un valor que divide la región de "aceptación" de la región de
rechazo al probar una hipótesis nula. Los gráficos de estas regiones de "aceptación" y rechazo
se presentan en las figuras de las siguientes diapositivas. Para utilizar una regla de decisión,
debemos seleccionar un valor crítico.
Supongamos que el valor crítico es 1,8. Si el ^ observado es mayor que 1,8, podemos
rechazar la hipótesis nula de que
B es cero o negativo. Para ver esto, mire la
figura en la siguiente diapositiva. Se puede ver que cualquier ^ por encima de 1,8 cae en la
región de rechazo, mientras que se puede ver que cualquier ^ por debajo de 1,8 cae en la región
de “aceptación”. La región de rechazo mide la probabilidad de cometer un error de tipo I si la
hipótesis nula es verdadera. Algunos estudiantes reaccionan a esta noticia sugiriendo que
hagamos la región de rechazo lo más pequeña posible. Desafortunadamente, disminuir la
probabilidad de cometer un error de tipo I significa aumentar la probabilidad de cometer un error de
tipo II (no rechazar una hipótesis nula falsa). Si hace que la región de rechazo sea tan pequeña
que casi nunca rechace una hipótesis nula verdadera, entonces no podrá rechazar casi todas las
hipótesis nulas, ¡sean verdaderas o no! Como resultado, aumentará la probabilidad de cometer
un error de tipo II.

Figura 5.2: Regiones de "aceptación" y rechazo para una prueba unilateral de

PAG

Teniendo esto en cuenta, ¿cómo se elige entre errores de tipo I y tipo II?
La respuesta es más fácil si se sabe que el costo (para la sociedad o para quien toma las
decisiones) de cometer un tipo de error es dramáticamente mayor que el costo de cometer el
5.3 INTRODUCCIÓN 77

otro. Si trabajara para la autoridad que regula y aprueba medicamentos en un país, por ejemplo,
querrá estar muy seguro de no haber lanzado un producto que
78CAPÍTULO 5 PRUEBAS DE HIPÓTESIS E INFERENCIA ESTADÍSTICA

Figura 5.3: Regiones de "aceptación" y rechazo para una prueba bilateral de p

tuvo horribles efectos secundarios.

5.4 la prueba t
Los econometristas generalmente utilizan la prueba t para probar hipótesis sobre retornos
individuales. coeficientes de pendiente de sion. Las pruebas de más de un coeficiente a la vez
(hipótesis conjuntas) generalmente se realizan con la prueba F. La prueba t es fácil de usar
porque tiene en cuenta las diferencias en las unidades de medida de las variables y en la
desviación estándar. ciones de los coeficientes estimados. Más importante aún, el estadístico t
es la prueba apropiada para usar cuando el término de error estocástico tiene una distribución
normal y cuando se debe estimar la varianza de esa distribución . Dado que estos suelen ser los
casos, el uso de la prueba t para probar hipótesis se ha convertido en una práctica estándar en
econometría.

5.4.1 El estadístico t
Para una ecuación de regresión múltiple típica:

Y i = B 0 + B 1 X 1 i + B 2 X 2 + ::: + B k X ki + €i
i (5.6)

podemos calcular los valores t para cada uno de los coeficientes estimados en la ecuación.
Tenga en cuenta que las pruebas t generalmente se realizan sólo en los coeficientes de
pendiente; para estos, la forma relevante del estadístico t para el k -ésimo
coeficiente es

(k= 1; 2;:::; K) (5.7)

¿Cómo se decide qué


5.3 INTRODUCCIÓN 79

frontera implica la hipótesis nula? Algunas hipótesis nulas especifican un valor particular. Para
éstos,
B es simplemente ese valor; si
H

BH :
B = S, entonces
BH 0 = S . Otras hipótesis nulas implican rangos, pero sólo nos interesa el valor de
la hipótesis nula que está más cerca del límite entre la región de "aceptación" y la región de
rechazo. Este valor límite se convierte entonces en BH Por ejemplo, si H 0 :
.

B>0yH : A

B < 0 , entonces el valor de la hipótesis nula más


cercano al borde es cero, y
BH = 0 . Dado que la mayoría de las hipótesis de
regresión prueban si un coeficiente de regresión particular es significativamente diferente de
cero,
BH 0
normalmente es cero. Cero es particularmente significativo porque si el verdadero
B es igual a
cero, entonces la variable no pertenece a la ecuación. Sin embargo, antes de eliminar la variable
de la ecuación y forzar efectivamente que el coeficiente sea cero, debemos tener cuidado y
probar la hipótesis nula de que
B = 0 . Por lo tanto, la forma más utilizada del
estadístico t se convierte en
(bk -0)

tk = SE (b) ( k = 1 ; 2) (5.8)

lo cual simplifica
b
t k = —• k ( k =1 ; 2 ;:::;K ) (5.9)
SE (B)
o el coeficiente estimado dividido por la estimación de su error estándar. Ésta es la fórmula del
estadístico t utilizada por la mayoría de los programas informáticos.
Para ver un ejemplo de este cálculo, consideremos la siguiente ecuación estimada que tiene
un formato típico para informar los resultados de la estimación.

Yj = 102.192 - 9075N + 0,3547P + 1,2881


(2053) (0.0727) (0543)
t = -4,42 4.88 2.37
N = 33 R2 = .579

En la ecuación anterior, los números entre paréntesis debajo de los coeficientes de


regresión estimados son los errores estándar estimados de los ^s estimados, y los números
debajo de ellos son valores t calculados de acuerdo con la fórmula analizada anteriormente
(cuando
BH 0 = 0 ). Tenga en cuenta que el signo del valor t es siempre el mismo que el del
coeficiente de regresión estimado y el error estándar siempre es positivo.
80CAPÍTULO 5 PRUEBAS DE HIPÓTESIS E INFERENCIA ESTADÍSTICA

5.4.2 El valor t crítico y la regla de decisión de la prueba t


Para decidir si rechazar o no una hipótesis nula basada en un valor t calculado, utilizamos un
valor t crítico. Un valor t crítico es el valor que distingue la región de "aceptación" de la región de
rechazo. El valor t crítico, t c , se selecciona de una tabla t (disponible como apéndice de casi
todos los textos de estadística y econometría) dependiendo de si la prueba es unilateral o
bilateral, en el nivel de error tipo I que usted especifique, y sobre los grados de libertad, N ^ K ^ 1
. El nivel de error tipo I en una prueba de hipótesis también se denomina nivel de significancia de
esa prueba y lo analizaremos con más detalle más adelante en este capítulo.
La tabla t fue creada para ahorrar tiempo durante la investigación; Consiste en valores t
críticos dadas áreas específicas debajo de curvas como las de la figura para pruebas
unilaterales para errores de tipo I. Por tanto, un valor t crítico es función de la probabilidad de
error de tipo I que el investigador desea especificar. Una vez que haya obtenido un valor t
calculado t k y un valor t crítico t c , rechaza la hipótesis nula si el valor t calculado es mayor en
valor absoluto que el valor t crítico y si el valor t calculado tiene el signo implícito en H . Por lo
A

tanto, la regla a aplicar al probar un coeficiente de regresión único es que se debe: Rechazar H 0

si j t k j > t c y si t k también tiene el signo implícito en H A . De lo contrario, no rechace H 0 .


Esta regla de decisión funciona para valores t calculados y valores t críticos para hipótesis
unilaterales cercanas a cero:

H0:B<0
H A : 6 >0

H0:B>0
HA : 6 <0

Lo mismo se aplica a la hipótesis bilateral en torno a cero:

H0:B=0
HA:B6=0

Para hipótesis unilaterales basadas en valores hipotéticos distintos de cero:

H0:8<S
H A : 6 >S

H0:8>S
HA : 6 <S

También para hipótesis bilaterales basadas en valores hipotéticos distintos de cero:

H 0 : 8 =S
HA:36=S
5.3 INTRODUCCIÓN 81

La regla de decisión es la misma: rechazar la hipótesis nula si el valor t calculado


apropiadamente, t k , es mayor en valor absoluto que el valor t crítico, t c , siempre que el signo
de t sea el mismo que el signo del coeficiente implícito en H . De lo contrario, no rechace H 0 .
k A

Utilice siempre la ecuación

(B-^H0
(k
tk = s^b^ = 1; 2; ::: ;K '

siempre que el valor hipotético no sea cero.


Una hipótesis nula que comúnmente se prueba en el trabajo empírico es H 0 : ^ = 0 , es
decir, el coeficiente de pendiente es cero. Esta hipótesis nula "cero" tiene como objetivo
descubrir si Y está relacionado en absoluto con X , la variable explicativa. Si, para empezar, no
existe ninguna relación entre Y y X , entonces probar una hipótesis como ^ = 0:3 o cualquier otro
valor no tiene sentido. Esta hipótesis nula puede comprobarse fácilmente mediante el intervalo
de confianza o el método de la prueba t . Pero muy a menudo estas pruebas formales pueden
ser abreviadas adoptando la regla de significancia "2-t", que puede expresarse como regla
general de "2-t" . Si el número de grados de libertad es 20 o más y si a , el nivel de significancia,
se fija en 0,05, entonces la hipótesis nula
P = 0 puede
rechazarse si el valor t [3, /SE (3,) ] excede 2 en valor absoluto.

5.4.3 Elegir un nivel de significancia


Para completar la discusión anterior, fue necesario elegir un nivel de significancia antes de poder
encontrar un valor t crítico en las tablas estadísticas. Las palabras "significativamente positivo"
generalmente conllevan la interpretación estadística de que H 0 (P < 0) fue rechazado a favor de
H (
A

P > 0) según la regla de decisión preestablecida, que se estableció con un


determinado nivel de significancia. El nivel de significancia indica la probabilidad de observar un
valor t estimado mayor que el valor t crítico si la hipótesis nula fuera correcta. Mide la cantidad
de error tipo I implicado por un valor t crítico particular. Si el nivel de significancia es del 10 por
ciento y rechazamos la hipótesis nula en ese nivel, entonces este resultado habría ocurrido sólo
el 10 por ciento de las veces que la hipótesis nula era realmente correcta. ¿Cómo se debe elegir
un nivel de significancia?
La mayoría de los econometristas principiantes (y también muchos de los que han
publicado) suponen que cuanto menor sea el nivel de significancia, mejor. Después de todo,
dicen, ¿no garantiza un bajo nivel de significancia una baja probabilidad de cometer un error de
tipo I? Desafortunadamente, un nivel extremadamente bajo de significancia también aumenta
dramáticamente la probabilidad de cometer un error de tipo II. Por lo tanto, a menos que se
encuentre en la situación inusual de no preocuparse por "aceptar" erróneamente una hipótesis
nula falsa, minimizar el nivel de significancia no es una buena práctica estándar. En cambio, se
82CAPÍTULO 5 PRUEBAS DE HIPÓTESIS E INFERENCIA ESTADÍSTICA

recomienda utilizar un nivel de significancia del 5 por ciento, excepto en aquellas circunstancias
en las que se sabe algo inusual sobre los costos relativos de cometer errores de tipo I y tipo II.

Si sabe que un error de tipo II será extremadamente costoso, por ejemplo, entonces tiene
sentido considerar utilizar un nivel de significancia del 10 por ciento al determinar su valor crítico.
Sin embargo, tales juicios son difíciles, por lo que se anima a los investigadores principiantes a
adoptar un nivel de significancia del 5 por ciento como estándar. Si podemos rechazar una
hipótesis nula al nivel de significancia del 5 por ciento, podemos resumir nuestros resultados
diciendo que el coeficiente es "estadísticamente significativo" al nivel del 5 por ciento. Dado que
el nivel del 5 por ciento es arbitrario, no deberíamos sacar conclusiones precipitadas sobre el
valor de una variable simplemente porque su coeficiente no sea significativo por una pequeña
cantidad; si se hubiera elegido un nivel diferente de significancia, el resultado podría haber sido
diferente. Algunos investigadores producen tablas de resultados de regresión, normalmente sin
signos hipotéticos para sus coeficientes, y luego marcan los coeficientes "significativos" con
asteriscos. Los asteriscos indican cuando la puntuación t es mayor en valor absoluto que el valor
crítico bilateral del 10 por ciento (que merece un asterisco), el valor crítico bilateral del 5 por
ciento (**) o el 1 bilateral. -porcentaje de valor crítico (***). Tal uso del valor t debe considerarse
como un uso de la estadística descriptivo más que como un uso de prueba de hipótesis.
De vez en cuando, los investigadores utilizan la frase "grado de confianza" o "nivel de
confianza" cuando prueban hipótesis. ¿Qué quieren decir? El nivel de confianza no es más que
el 100 por ciento menos el nivel de significancia. Por lo tanto, también se puede decir que una
prueba t para la cual utilizamos un nivel de significancia del 5 por ciento tiene un nivel de confianza
del 95 por ciento. Dado que los dos términos tienen significados idénticos, utilizaremos el nivel de
significación a lo largo de este módulo. Otra razón por la que preferimos el término nivel de
significancia a nivel de confianza es para evitar cualquier posible confusión con el concepto
relacionado de intervalos de confianza.
Algunos investigadores evitan elegir un nivel de significancia simplemente indicando el nivel
más bajo de significancia posible para cada coeficiente de regresión estimado. Los niveles de
significancia resultantes se denominan valores p.

5.4.4 Valor p
Existe una alternativa a la prueba t basada en una medida llamada valor p, o nivel de
significancia marginal. Un valor p para una puntuación t es la probabilidad de observar una
puntuación t de ese tamaño o mayor (en valor absoluto) si la hipótesis nula fuera cierta.
Gráficamente, es dos veces el área bajo la curva de la distribución t entre el valor absoluto de la
puntuación t real y la infinita. Un valor p es una probabilidad, por lo que va de 0 a 1. Nos indica el
nivel más bajo de significancia en el que podríamos rechazar la hipótesis nula (asumiendo que la
estimación está en la dirección esperada). Un valor p pequeño arroja dudas sobre la hipótesis nula,
por lo que para rechazar una hipótesis nula, necesitamos un valor p bajo. ¿Cómo calculamos un
valor p? Los paquetes de software de regresión estándar calculan los valores p automáticamente
y los imprimen para cada coeficiente estimado. Por lo tanto, puede leer los valores p de su
5.3 INTRODUCCIÓN 83

resultado de regresión tal como lo haría con su:


B.

Sin embargo, tenga cuidado, porque prácticamente todos los paquetes de regresión
imprimen valores p para hipótesis alternativas bilaterales. Estos valores p bilaterales incluyen el
área en ambas "colas", por lo que los valores p bilaterales son el doble de tamaño que los
unilaterales. Si su prueba es unilateral, debe dividir el valor p en el resultado de su regresión por
2 antes de realizar cualquier prueba. ¿Cómo usarías un valor p para ejecutar una prueba t? Si el
nivel de significancia elegido es 5 por ciento y el valor p es menor que 0,05, entonces puede
rechazar su hipótesis nula siempre que el signo esté en la dirección esperada. Por lo tanto, la
regla de decisión del valor p es: Rechazar H 0 si el valor p K < el nivel de significancia y si A
Pk tiene el signo implícito en Ha. De lo contrario, no rechace H0.
Veamos un ejemplo del uso de un valor p para ejecutar una prueba t . Supongamos que
analizamos la demanda de un producto o servicio determinado y realizamos una prueba
unilateral sobre el coeficiente de ingreso. Tenemos las siguientes hipótesis nula y alternativa:

H 0 : 61 < 0
H0:P1>0

El resultado STATA es

Y Coef. Estándar Errar. t P> |t [95% Conf. Intervalo]


nor
te -9074.674 2052.674 -4.42 0.000 -13272.86 -4876.485
PA .3546684 .0726808 4.88 0.000 .2060195 .5033172
G 1 1.287923 .5432938 2.37 0.025 .1767628 2.399084
_contra 102192.4 12799.83 7.98 0.000 76013.84 128371
s
Figura 5.4: Uso del valor p

Como puede ver en el resultado de la regresión de la diapositiva anterior, el valor p para A


P es .025. Este es un valor p bilateral y estamos ejecutando una prueba unilateral, por
El ingreso
lo que necesitamos dividir 0,025 entre 2, obteniendo 0,0125. Dado que 0,0125 es inferior a
nuestro nivel de significancia elegido de 0,05, y dado que el signo de P 1 es positivo y concuerda
con el de Ha, podemos rechazar H 0 . No es sorprendente que este sea el mismo resultado que
obtendríamos si realizáramos una prueba t convencional. Los valores p tienen una serie de
ventajas. Son fáciles de usar y permiten a los lectores de la investigación elegir sus propios
niveles de significancia en lugar de verse obligados a utilizar el nivel elegido por el investigador
original.
Además, los valores p transmiten información al lector sobre la fuerza relativa con la que
podemos rechazar una hipótesis nula. Debido a estos beneficios, muchos re Los buscadores
utilizan valores p de forma constante.
Los investigadores principiantes se benefician al aprender el procedimiento estándar de la
prueba t , par particularmente porque es más probable que los obligue a recordar formular una
hipótesis sobre el signo del coeficiente y utilizar una prueba unilateral cuando un signo particular
puede ser hipotético. esizado. Además, si sabe cómo utilizar el enfoque estándar de la prueba t ,
es fácil cambiar al enfoque del valor p , pero lo contrario no es necesariamente cierto. Sin
84CAPÍTULO 5 PRUEBAS DE HIPÓTESIS E INFERENCIA ESTADÍSTICA

embargo, reconocemos que hoy en día los econometristas en ejercicio gastan mucha más
energía estimada. modelos de apareamiento y coeficientes de lo que gastan en probar hipótesis.
Esto se debe a que la mayoría de los investigadores confían más en sus teorías (por ejemplo,
que las curvas de demanda tienen pendiente descendente) que en la calidad de sus datos o sus
métodos de regresión. En tales situaciones, donde las herramientas estadísticas se utilizan más
con fines descriptivos que con fines de prueba de hipótesis, está claro que el uso de valores p
ahorra tiempo y transmite más información que el procedimiento estándar de prueba t .
Los cuatro pasos a seguir cuando se trabaja con la prueba t son:
1. Plantee las hipótesis nula y alternativa.
2. Elija un nivel de significancia y, por tanto, un valor t crítico.
3. Ejecute la regresión y obtenga un valor t estimado (o puntuación t).
4. Aplique la regla de decisión comparando el valor t calculado con el valor t crítico para
rechazar o no rechazar la hipótesis nula.

5.5 Limitaciones de la prueba t


Un problema con la prueba t es que es fácil de usar incorrectamente. Las puntuaciones t se
imprimen mediante paquetes de regresión por computadora y parece fácil trabajar con la prueba
t, por lo que los investigadores principiantes a veces intentan usar la prueba t para "probar"
cosas que ni siquiera se pretendió probar. Por esa razón, probablemente sea tan importante
conocer las limitaciones de la prueba t como conocer sus aplicaciones. Quizás la más importante
de estas limitaciones es que la utilidad de la prueba t disminuye rápidamente a medida que se
estiman y prueban más y más especificaciones. El propósito de la presente sección es brindar
ejemplos adicionales de cómo no se debe utilizar la prueba t.
La prueba t no prueba la validez teórica
Recuerde que el propósito de la prueba t es ayudar al investigador a hacer inferencias sobre
un coeficiente poblacional particular basándose en una estimación obtenida de una muestra
similar. ple de esa población. Algunos investigadores principiantes concluyen que cualquier
resultado estadísticamente significativo es también teóricamente correcto. Esto es peligroso
porque tal conclusión confunde significancia estadística con validez teórica.
La prueba t no prueba la "importancia"
Un posible uso de una ecuación de regresión es ayudar a determinar qué independientes La
variable dependiente tiene el mayor efecto relativo (importancia) sobre la variable dependiente.
Algunos investigadores principiantes llegan a la conclusión injustificada de que la mayoría de las
estadísticas La variable significativamente significativa en su regresión estimada es también la
más importante en términos de explicar la mayor parte del movimiento de la variable
dependiente. La significancia estadística dice poco -si es que dice algo- sobre qué variables
determinan la mayor parte de la variación de la variable dependiente. Para determinar la
importancia, se utiliza una medida como el tamaño del coeficiente multiplicado por el tamaño
promedio del
5.6 INTERVALO DE CONFIANZA 85

Yj = 102,192 - 9075N; + 0,3547P + 1,2881;


(2053) (0,0727) (0,543)
t = -4,42 4.88 2.37
N = 33 R2 = .579

La variable independiente o el error estándar de la variable independiente tendrían más sentido.


La prueba t no está destinada a pruebas de toda la población
La prueba t ayuda a hacer inferencias sobre el valor real de un parámetro a partir de una
estimación calculada a partir de una muestra de la población (el grupo del que se extrae la
muestra). Si se calcula un coeficiente a partir de toda la población, entonces una estimación
insesgada ya mide el valor de la población y una prueba t significativa no añade nada a este
conocimiento. Se podría olvidar esta propiedad y dar demasiada importancia a las puntuaciones
t que se han obtenido de muestras que se aproximan al tamaño de la población. Hay una tercera
forma de probar la hipótesis: se basa en el concepto de intervalo de confianza.

5.6 Intervalo de confianza


Un intervalo de confianza es un rango de valores que contendrá el verdadero valor de
B un
cierto porcentaje del tiempo, digamos 90 o 95 por ciento. La fórmula para un intervalo de
confianza es
Intervalo de confianza = (b ± tc:SE (3)
donde t c es el valor crítico bilateral del estadístico t para cualquier nivel de significancia que
elijamos. Si desea un intervalo de confianza del 90 por ciento, elegiría el valor crítico para el
nivel de significancia del 10 por ciento. Para un intervalo de confianza del 95 por ciento, se
utilizaría un valor crítico del 5 por ciento.
Para ver cómo se pueden utilizar los intervalos de confianza para las pruebas de hipótesis,
veamos el coeficiente estimado para la variable I en la siguiente ecuación estimada:
¿Cuál sería un intervalo de confianza del 90 por ciento para
^¿ Me parezco? Para verificar esto, lo
que necesitamos es un valor t crítico bilateral del 10 por ciento para 29 grados de libertad, que
es t = 1 : 699 (de la tabla estadística).
c

Siguiendo con el ejemplo anterior, el intervalo de confianza del 90 por ciento para el
coeficiente de I en la ecuación estimada es:

1 : 288 y 1 : 699 * 0 : 543

= 1 : 288 yo 0 : 923

) 0 : 365 ^ ^ I ^ 2:2H
86CAPÍTULO 5 PRUEBAS DE HIPÓTESIS E INFERENCIA ESTADÍSTICA

¿Qué significa esto exactamente? Si los supuestos clásicos son ciertos, la fórmula del
intervalo de confianza produce rangos que contienen el valor verdadero de
90 por ciento
del tiempo. En este caso, hay un 90 por ciento de posibilidades de que el valor real de
p I está entre
0,365 y 2,211. Si no está en ese rango, se debe a una muestra desafortunada. ¿Cómo podemos
utilizar un intervalo de confianza para una prueba de hipótesis de dos colas? Si la hipótesis nula
es
p = 0 , podemos rechazarlo al nivel del 10 por ciento porque 0 no está en el intervalo de
I

confianza. Si la hipótesis nula es que


p = 1 : 0 , no podemos rechazarlo porque 1,0 está
I

en el intervalo. En general, si el valor del límite de su hipótesis nula está en el intervalo de


confianza, no puede rechazar la hipótesis nula. Por tanto, los intervalos de confianza se pueden
utilizar para pruebas bilaterales, pero son más complicados. Entonces, ¿por qué molestarse con
ellos? Resulta que los intervalos de confianza son muy útiles para decirnos qué tan precisa es
una estimación del coeficiente. Y para muchas personas que utilizan la econometría en el mundo
real, esto puede ser más importante que la prueba de hipótesis.

5.7 La prueba F
Aunque la prueba t es invaluable para hipótesis sobre coeficientes de regresión individuales, no
se puede utilizar para probar múltiples hipótesis simultáneamente. Semejante limitación es
desafortunada porque muchas ideas interesantes implican una serie de hipótesis o, en su mayor
parte, Desarrollar una hipótesis sobre múltiples coeficientes. Por ejemplo, supongamos que
desea probar la hipótesis nula de que no hay variación estacional en una ecuación de regresión
trimestral que tiene variables ficticias para las estaciones. Para probar tal hy hipótesis, la
mayoría de los investigadores utilizarían la prueba F.

5.7.1 ¿Qué es la prueba F?


La prueba F es una prueba de hipótesis formal diseñada para abordar una hipótesis nula que
contiene múltiples hipótesis o una sola hipótesis sobre un grupo de coeficientes. Estas hipótesis
nulas “conjuntas” o “compuestas” son apropiadas siempre que la teoría económica subyacente
especifique valores para múltiples coeficientes simultáneamente.
La forma en que funciona la prueba F es bastante ingeniosa. El primer paso es traducir la
hipótesis nula particular en cuestión en restricciones que se impondrán a la ecuación. Se puede
pensar en la ecuación restringida resultante como el aspecto que tendría si la hipótesis nula
fuera correcta; se sustituyen los valores hipotéticos en la ecuación de regresión para ver qué
sucedería si la ecuación estuviera obligada a concordar con la hipótesis nula. Como resultado,
en la prueba F la hipótesis nula siempre conduce a una ecuación restringida, incluso si esto viola
nuestra práctica estándar de que la hipótesis alternativa contiene lo que esperamos que sea
87CAPÍTULO 5 PRUEBAS DE HIPÓTESIS E INFERENCIA ESTADÍSTICA

verdadero.
El segundo paso en una prueba F es estimar esta ecuación restringida con MCO y comparar
el Öt de esta ecuación restringida con el Öt de la ecuación no restringida.
5.4 LA PRUEBA T 88

ecuación. Si los Öts de la ecuación restringida y la ecuación no restringida no son


sustancialmente diferentes, no se debe rechazar la hipótesis nula. Si el Öt de la ecuación no
restringida es sustancialmente mejor que el de la ecuación restringida, entonces rechazamos la
hipótesis nula. El Öt de la ecuación restringida nunca es superior al Öt de la ecuación no
restringida, como explicaremos a continuación.
Los Öts de las ecuaciones se comparan con el estadístico F general:

(RSS M ^ RSS) =M
r— ------------------—------------------------—
RSS= (N ^ K ^ 1)

RSS M siempre es mayor o igual que RSS.


Imponer restricciones a los coeficientes en lugar de permitir que MCO seleccione sus
valores nunca puede disminuir los residuos cuadrados sumados. (Recuerde que MCO
selecciona la combinación de valores de los coeficientes que minimiza el RSS). En el extremo, si
la regresión sin restricciones produce exactamente los mismos coeficientes estimados que la
regresión restringida, entonces los RSS son iguales y los El estadístico F es cero. En este caso,
H 0 no se rechaza porque los datos indican que las restricciones parecen ser correctas. Como la
diferencia entre los coeficientes restringidos y los inconcientes Cuando los coeficientes tensos
aumentan, los datos indican que es menos probable que la hipótesis nula sea cierta. Por lo
tanto, cuando F es mayor que el valor F crítico, la hipótesis re Las restricciones especificadas en
la hipótesis nula son rechazadas por la prueba. La regla de decisión a utilizar en la prueba F es
rechazar la hipótesis nula si el valor F calculado (F) de la Ecuación 5.10 es mayor que el valor F
crítico apropiado (F ) :
c

Rechazar: H 0 si F > F c
No rechazar: H 0 si F < F c
Capítulo 6

Violación de supuestos clásicos

6.1 Introducción
En este capítulo nos ocupamos de las violaciones de los Supuestos Clásicos y de las soluciones
para esas violaciones: multicolinealidad, correlación serial y heterocedasticidad. Para cada uno
de estos tres problemas, intentaremos responder las siguientes preguntas:
¿Cuál es la naturaleza del problema?
¿Cuáles son las consecuencias del problema?
¿Cómo se diagnostica el problema?
¿Qué remedios para el problema están disponibles?
La palabra colinealidad describe una correlación lineal entre dos variables independientes, y
la multicolinealidad indica que están involucradas más de dos variables independientes. En el uso
común, la multicolinealidad se aplica a ambos casos.

6.2 Objetivos de aprendizaje


• Explique el significado de heterocedasticidad y dé ejemplos de conjuntos de datos que
probablemente exhiban heterocedasticidad.

• Explicar qué se entiende por serie temporal correlacionada en serie y cómo medimos la
correlación en serie.

• Explique cómo y por qué las gráficas de residuos de mínimos cuadrados pueden revelar
heterocedasticidad.

• Especifique una función de varianza y utilícela para probar la heterocedasticidad con (a)
una prueba de BreuschñPagan y (b) una prueba de White.

• Prueba de heterocedasticidad utilizando una prueba de GoldfeldtñQuandt aplicada a (a)


dos submuestras con varianzas potencialmente diferentes y (b) un modelo donde la
varianza Se supone que el rendimiento depende de una variable explicativa.

87
88 CAPÍTULO 6 VIOLACIÓN DE SUPUESTOS CLÁSICOS

• Describir y comparar las propiedades de los estimadores de mínimos cuadrados y de


mínimos cuadrados generalizados cuando existe heterocedasticidad.

• Calcule los errores estándar consistentes con la heterocedasticidad para mínimos


cuadrados.

• Describir cómo transformar un modelo para eliminar la heterocedasticidad.

6.3 Multicolinealidad
En este capítulo nos ocupamos de las violaciones de los Supuestos Clásicos y de las soluciones
para esas violaciones: multicolinealidad, correlación serial y heterocedasticidad. Para cada uno
de estos tres problemas, intentaremos responder las siguientes preguntas:
¿Cuál es la naturaleza del problema?
¿Cuáles son las consecuencias del problema?
¿Cómo se diagnostica el problema?
¿Qué remedios para el problema están disponibles?
La palabra colinealidad describe una correlación lineal entre dos variables independientes, y
la multicolinealidad indica que están involucradas más de dos variables independientes. En el uso
común, la multicolinealidad se aplica a ambos casos. Estrictamente hablando, la multicolinealidad
perfecta es la violación del Supuesto Clásico VI: que ninguna variable independiente es una
función lineal perfecta de una o más variables independientes.
La multicolinealidad perfecta es rara, pero la multicolinealidad imperfecta severa, aunque no
viola el Supuesto Clásico VI, todavía causa problemas sustanciales. Recuerde que el coe¢ ciente
p puede considerarse como el impacto sobre la variable dependiente de
k

un aumento de una unidad en la variable independiente X , manteniendo constantes las otras


k

variables independientes en la ecuación. Si dos variables explicativas están significativamente


relacionadas, entonces al programa de computadora MCO le resultará difícil distinguir los efectos
de una variable de los efectos de la otra. En esencia, cuanto más correlacionadas estén dos (o
más) variables independientes, más difícil resulta estimar con precisión los coeficientes del
modelo verdadero. Si dos variables se mueven de manera idéntica, entonces no hay esperanza
de distinguir entre sus impactos, pero si las variables sólo están correlacionadas de manera
aproximada, entonces aún podríamos ser capaces de estimar los dos efectos con suficiente
precisión para la mayoría de los propósitos.
Multicolinealidad perfecta: viola el Supuesto Clásico VI, que especifica que ninguna variable
explicativa es una función lineal perfecta de cualquier otra variable explicativa. La palabra
perfecto en este contexto implica que la variación en una explana La variable explicativa puede
explicarse completamente mediante movimientos en otra variable explicativa. Una función lineal
perfecta entre dos variables independientes sería:
x 1 i = a 0 + a 1 x 2 i donde las a s son constantes y las x s son variables independientes en:

y yo = ^ 0 + P 1 x 1 yo + P 2 x 2 yo + c yo
6.3 MULTICOLINEALIDAD 89

Observe que no hay ningún término de error en la ecuación (3.1). Esto implica que x 1 se puede
calcular exactamente dado x 2 y la ecuación. Las ecuaciones típicas para relaciones lineales tan
perfectas serían:

x 1 yo = 5 x 2 yo
x1 =2+3x2
yo yo

¿Qué sucede con la estimación de una ecuación econométrica donde existe multicolinealidad
perfecta? OLS es incapaz de generar estimaciones de los coeficientes de regresión y la mayoría
de los programas de computadora OLS imprimirán un mensaje de error en tal situación.
Teóricamente obtendríamos los siguientes coeficientes estimados y errores estándar:
bk = en deter minado SE ( B ,) = co

La multicolinealidad perfecta arruina nuestra capacidad para estimar los coeficientes porque
las dos variables no se pueden distinguir. No puedes "mantener todos los demás
independientes". variables variables en la ecuación son constantes si cada vez que una variable
cambia, otra cambia de manera idéntica. Con multicolinealidad perfecta, una vari independiente
puede explicarse completamente por los movimientos de una o más variables independientes.
Por lo general, la multicolinealidad perfecta puede evitarse mediante una selección cuidadosa de
las variables independientes antes de ejecutar una regresión.
Un caso especial relacionado con la multicolinealidad perfecta ocurre cuando una variable
que está definidamente relacionada con la variable dependiente se incluye como variable
independiente en una ecuación de regresión. Por definición, una variable dominante de este tipo
está tan altamente correlacionada con la variable dependiente que enmascara completamente los
efectos de todas las demás variables independientes en la ecuación. En cierto sentido, este es un
caso de colinealidad perfecta entre la variable dependiente y una variable independiente. Por
ejemplo, si se incluye una variable que mide la cantidad de materias primas utilizadas por la
industria del calzado en una función de producción para esa industria, la variable de materias
primas tendría una puntuación t extremadamente alta, pero por lo demás variables importantes
como la mano de obra y el capital tendrían una puntuación t extremadamente alta. puntuaciones t
bastante insignificantes. ¿Por qué?
En esencia, si supiéramos cuánto cuero utiliza una fábrica de zapatos, podríamos predecir el
número de pares de zapatos producidos sin saber nada sobre la mano de obra o el capital. La
relación es deÖnicional y la variable dominante debe eliminarse de la ecuación para obtener
estimaciones razonables de los coeficientes de las otras variables. Dado que la multicolinealidad
perfecta es bastante fácil de evitar, los econometristas rara vez hablan de ella. En cambio,
cuando utilizamos la palabra multicolinealidad, en realidad estamos hablando de multicolinealidad
imperfecta severa.

La multicolinealidad imperfecta se puede definir como una relación funcional lineal que entre
dos o más variables independientes que es tan fuerte que puede afectar significativamente la
estimación de los coeficientes de las variables. En otras palabras, la multicolinealidad imperfecta
90 CAPÍTULO 6 VIOLACIÓN DE SUPUESTOS CLÁSICOS

ocurre cuando dos (o más) variables explicativas están relacionadas linealmente de manera
imperfecta, como en:
x 1 yo = un 0 + un 1 x 2 yo + u yo

Con multicolinealidad imperfecta, una variable independiente es fuerte pero no por Función lineal
perfecta de una o más variables independientes. imperfecto múltiple la colinealidad varía en
grado de una muestra a otra. Las principales consecuencias de la multicolinealidad son:
1. Las estimaciones seguirán siendo imparciales. Incluso si una ecuación tiene múltiples
significados colinealidad, las estimaciones de la
P s todavía estará centrado alrededor de la verdadera
población P s si se cumplen los primeros seis supuestos clásicos para una ecuación especificada
correctamente.
2. Las varianzas y los errores estándar de las estimaciones aumentarán. Ésta es la principal
consecuencia de la multicolinealidad. Dado que dos o más de las variables explicativas Si las
variables están significativamente relacionadas, resulta difícil identificar con precisión los efectos
separados de las variables multicolineales.
Cuando resulta difícil distinguir el efecto de una variable del efecto de otra, es mucho más
probable que cometamos grandes errores al estimar el efecto.
P s de lo que
éramos antes de encontrarnos con la multicolinealidad. Como resultado, los coeficientes
estimados, aunque todavía insesgados, ahora provienen de distribuciones con varianzas mucho
mayores y, por lo tanto, errores estándar mayores.
Aunque las varianzas y los errores estándar son mayores con multicolinealidad que sin ella,
MCO sigue siendo AZUL cuando existe multicolinealidad. Es decir, ninguna otra técnica de
estimación lineal insesgada puede obtener varianzas más bajas que MCO incluso en presencia
de multicolinealidad. Por lo tanto, aunque el efecto de la multicolinealidad es aumentar la varianza
de los coeficientes estimados, MCO todavía tiene la propiedad de varianza mínima.
Estas "variaciones mínimas" son bastante grandes.
3. Las puntuaciones t calculadas caerán. La multicolinealidad tiende a disminuir las
puntuaciones t de los coeficientes estimados principalmente debido a la fórmula del estadístico t:

b
p
(Bk- H0

tk = SE (b^ ( k =i; 2")

4. Las estimaciones se volverán muy sensibles a los cambios en las especificaciones. La


adición o eliminación de una variable explicativa o de unas pocas observaciones a menudo
provocará cambios importantes en los valores de P s cuando existe una multicolinealidad
significativa. Si se elimina una variable, incluso una que parece estadísticamente insignificante,
los coeficientes de las variables restantes en la ecuación a veces cambiarán dramáticamente.
6.3 MULTICOLINEALIDAD 91

Figura 6.1: La multicolinealidad severa aumenta las varianzas del coe¢ estimado

El Öt global de la ecuación y la estimación de los coeficientes de no multi las variables


colineales no se verán afectadas en gran medida. Aunque las puntuaciones t individuales suelen
ser bastante bajas en una ecuación multicolineal, la Öt general de la ecuación, como mea
asegurada por R 2
, no disminuirá mucho, si es que disminuye, frente a una multicolinealidad
significativa. Teniendo en cuenta esto, uno de los primeros indicios de multicolinealidad severa es
la combinación de un R elevado sin coeficientes de regresión individuales estadísticamente
significativos.
De manera similar, si una variable explicativa en una ecuación no es multicolineal con las
otras variables, entonces la estimación de su coeficiente y error estándar generalmente no se
verán afectados. Debido a que el Öt general permanece prácticamente sin cambios, es posible
que la prueba F de significancia general rechace la hipótesis nula aunque ninguna de las pruebas
t sobre coeficientes individuales pueda hacerlo. Tal resultado es una clara indicación de
multicolinealidad imperfecta severa.
Finalmente, dado que la multicolinealidad tiene poco efecto sobre el Öt general de la
ecuación, también tendrá poco efecto sobre el uso de esa ecuación para predicción o pronóstico,
siempre y cuando las variables independientes mantengan el mismo patrón de multicolinealidad
en la ecuación. período de pronóstico que demostraron en la muestra.

6.3.1 Pruebas de multicolinealidad


¿Cómo decidimos si una ecuación tiene un problema de multicolinealidad grave? Un primer paso
es reconocer que existe cierta multicolinealidad en toda ecuación. Es prácticamente imposible en
un ejemplo del mundo real encontrar un conjunto de variables explicativas que no estén
totalmente correlacionadas entre sí (excepto en los experimentos diseñados). Nuestro objetivo
principal en esta sección será aprender a determinar cuánta multicolinealidad existe en una
ecuación, no si existe multicolinealidad.
Un segundo punto clave es que la gravedad de la multicolinealidad en una ecuación
determinada puede cambiar de una muestra a otra dependiendo de las características de la
muestra. Como resultado, los fundamentos teóricos de la ecuación no son tan importantes en la
92 CAPÍTULO 6 VIOLACIÓN DE SUPUESTOS CLÁSICOS

detección de multicolinealidad como lo son en la detección de una variable omitida o una forma
funcional incorrecta. En cambio, tendemos a confiar más en técnicas orientadas a datos para
determinar la gravedad de la multicolinealidad en una muestra determinada. Por supuesto, nunca
podemos ignorar la teoría detrás de una ecuación.

Coe¢ ciente de correlación simple

Si dos variables están perfectamente correlacionadas positivamente, entonces r = +1


Si dos variables están perfectamente correlacionadas negativamente, entonces r = ^ 1
Si dos variables no están totalmente correlacionadas, entonces r = 0
¿Qué tan alto es alto? Algunos investigadores eligen un número arbitrario, como 0,80, y se
preocupan por la multicolinealidad cada vez que el valor absoluto de un coeficiente de correlación
simple excede 0,80. Una mejor respuesta podría ser que r es alto si causa variaciones
inaceptablemente grandes en las estimaciones de coeficientes que nos interesan. Tenga cuidado:
el uso de coeficientes de correlación simples como indicación del grado de multicolinealidad
implica una limitación importante si hay más de dos variables explicativas. Es muy posible que
grupos de variables independientes, actuando juntas, causen multicolinealidad sin que ningún
coeficiente de correlación simple sea lo suficientemente alto como para indicar que la
multicolinealidad es de hecho severa.
Como resultado, los coeficientes de correlación simples deben considerarse pruebas
suficientes, pero no necesarias, de multicolinealidad. Aunque una r alta indica de hecho la
probabilidad de multicolinealidad severa, una r baja de ninguna manera prueba lo contrario.

Factores de inflación de alta varianza (VIF)

Una medida de la gravedad de la multicolinealidad que es fácil de usar y que está ganando
popularidad es el factor de inflación de la varianza. El factor de inflación de la varianza (VIF) es
un método para detectar la gravedad de la multicolinealidad observando en qué medida una
variable explicativa determinada puede explicarse por todas las demás variables explicativas de
la ecuación. Hay un VIF para cada variable explicativa en una ecuación.
El VIF es un índice de cuánto la multicolinealidad ha aumentado la varianza de un coeficiente
estimado. Un VIF alto indica que la multicolinealidad ha aumentado bastante la varianza estimada
del coeficiente estimado, lo que produce una puntuación t disminuida.
Suponga que desea utilizar el VIF para intentar detectar multicolinealidad en una ecuación
original con K variables independientes:

Y yo = B 0 + B 1 X 1 yo + B 2 X 2 yo + ::: + B k X ki + e yo

Para ello es necesario calcular K VIF diferentes, uno para cada Xi . Calcular el VIF para un X i

determinado implica dos pasos:

1. Ejecute una regresión MCO que tenga X como función de todas las demás variables
i
6.3 MULTICOLINEALIDAD 93

explicativas de la ecuación. Para i = 1, esta ecuación sería:

X 1 = a 0 + a 2 X 2 i + a 3 X 3 i + ::: + P k X ki + e i

Esto se conoce como regresión auxiliar o secundaria. Por tanto, hay K regresiones auxiliares, una
para cada variable independiente en la ecuación original.
2. Calcule el factor de inflación de la varianza para Pi :
1
segundo
SI(”i) = aR;)

donde R i
2
es el coeficiente de determinación (el R 2 no ajustado) del auxiliar regresión diaria
en el paso uno. Dado que existe una regresión auxiliar separada para cada variable
independiente en la ecuación original, también hay un R2 y un VIF (3,) para cada una. Cuanto
mayor sea el VIF, más graves serán los efectos de la multicolinealidad. ¿Qué tan alto es alto? Un
R 2 de 1, que indica multicolinealidad perfecta, produce un VIF de infinito, mientras que un R 2 de
0, que indica ninguna multicolinealidad en absoluto, produce un VIF de 1. Si bien no existe una
tabla de valores críticos formales de VIF, una regla general común es que si VIF (3,) > 5, la
multicolinealidad es grave. A medida que aumenta el número de variables independientes, tiene
sentido aumentar ligeramente este número.

6.3.2 Remedios para la multicolinealidad


Hacer nada
Eliminar una variable redundante
Aumentar el tamaño de la muestra
Muy a menudo, no hacer nada es el mejor remedio para la multicolinealidad.
Si la multicolinealidad no ha disminuido las puntuaciones t hasta el punto de insignificancia,
entonces no se debería considerar ninguna solución mientras las variables sean teóricamente
fuertes. Incluso si las puntuaciones t son insignificantes, se deben emprender soluciones
cautelosamente. cuidadosamente, porque todos imponen costos en la estimación que pueden ser
mayores que el beneficio potencial de eliminar la multicolinealidad de la ecuación.

6.4 Correlación serial


La correlación serial, también llamada autocorrelación, puede existir en cualquier estudio de
investigación en el que el orden de las observaciones tenga algún significado y ocurra con mayor
frecuencia en conjuntos de datos de series temporales. En esencia, la correlación serial implica
que el valor del término de error de un período depende de alguna manera sistemática del valor
del término de error en otros períodos. Dado que los datos de series de tiempo se utilizan en
muchas aplicaciones de la econometría, es importante comprender la correlación serial y sus
consecuencias para los estimadores MCO.

El enfoque de esta sección para el problema de la correlación serial será similar al utilizado
en la sección anterior. Intentaremos responder las mismas cuatro preguntas:
94 CAPÍTULO 6 VIOLACIÓN DE SUPUESTOS CLÁSICOS

1. ¿Cuál es la naturaleza del problema?


2. ¿Cuáles son las consecuencias del problema?
3. ¿Cómo se diagnostica el problema?
4. ¿Qué remedios para el problema están disponibles?

6.4.1 Series de tiempo


Prácticamente todas las ecuaciones del texto hasta ahora han sido de naturaleza transversal,
pero eso va a cambiar dramáticamente en este capítulo. Como resultado, probablemente valga la
pena mientras que hablar de algunas de las características de las ecuaciones de series de
tiempo.
Los datos de series temporales involucran una sola entidad (como una persona, corporación
o estado) en múltiples puntos en el tiempo. Este enfoque de series temporales permite a los
investigadores investigar cuestiones analíticas que no pueden examinarse muy fácilmente con
una regresión transversal. Por ejemplo, los modelos macroeconómicos y los modelos de oferta y
demanda se estudian mejor utilizando series de tiempo, no datos transversales.
Los estudios de series temporales tienen algunas características que los hacen más difíciles
de abordar que los estudios transversales:
1. El orden de las observaciones en una serie temporal es Öxed. Con un conjunto de datos
transversales, puede ingresar las observaciones en el orden que desee, pero con datos de series
de tiempo, debe mantener las observaciones en orden cronológico.
2. Las muestras de series temporales tienden a ser mucho más pequeñas que las de corte
transversal. La mayoría de las poblaciones de series de tiempo tienen muchas menos
observaciones potenciales que las de corte transversal, y estos conjuntos de datos más
pequeños hacen que la inferencia estadística sea más difícil. En anuncio Además, es mucho más
difícil generar una observación de serie temporal que una de corte transversal. Después de todo,
¡se necesita un año para obtener una observación más en una serie de tiempo anual!
3. La teoría subyacente al análisis de series temporales puede ser bastante compleja.
Debido a los problemas mencionados anteriormente, la econometría de series de tiempo incluye
una serie de temas complejos que requieren técnicas de estimación avanzadas.
4. El término de error estocástico en una ecuación de serie de tiempo a menudo se ve
afectado por eventos que tuvieron lugar en un período de tiempo anterior. Esta es la correlación
en serie, el tema de nuestro capítulo, ¡así que comencemos!

6.4.2 Correlación serial pura


La correlación serial pura ocurre cuando el Supuesto Clásico IV, que supone incorrección
observaciones relacionadas del término de error, se viola en una ecuación especificada
correctamente. Si existe correlación entre las observaciones del término de error, entonces se
dice que el término de error está correlacionado en serie. Cuando los econometristas utilizan el
término correlación serial sin ninguna modificación, se refieren a correlación serial pura.
6.3 MULTICOLINEALIDAD 95

El tipo de correlación serial más comúnmente asumido es la correlación serial de primer


orden. relación, en la que el valor actual del término de error es función del valor anterior del
término de error:
€t = pe t ^1 + ut
se denomina esquema de Markov de primer orden.
El nuevo símbolo,
p , llamado coeficiente de autocorrelación de primer orden, mide la
relación funcional entre el valor de una observación del término de error y el valor de la
observación anterior del término de error. La magnitud de
pag
indica la fuerza de la correlación serial en una ecuación. Si
p es cero,
entonces no hay correlación serial (porque € i sería igual a u , un término de error clásico). A
medida que p se aproxima a 1 en valor absoluto, el valor de la observación previa del término de
error se vuelve más importante para determinar el valor actual de € , y existe un alto grado de
t

correlación serial. Para


Que p sea mayor que 1 en valor absoluto no es
razonable porque implica que el término de error tiene una tendencia a aumentar continuamente
en valor absoluto con el tiempo ("explotar").
Como resultado de esto podemos afirmar que:

^1 <
p< +1

el signo de
p indica la naturaleza de la correlación serial en una ecuación. Un valor positivo
para
p implica que el término de error tiende a tener el mismo signo de un período de
tiempo al siguiente; esto se llama correlación serial positiva. Tal tendencia significa que si por
casualidad € adquiere un valor grande en un período de tiempo, las observaciones posteriores
t

tenderían a retener una parte de este gran valor original y tendrían el mismo signo que el original.
Por ejemplo, en los modelos de series temporales, los efectos de un gran shock externo en una
economía (como un terremoto) en un período pueden persistir durante varios períodos. El término
de error tenderá a ser positivo para varias observaciones, luego negativo para varias más y luego
nuevamente positivo.
un valor negativo de
p implica que el término de error tiene una tendencia a cambiar de
signo de negativo a positivo y viceversa en observaciones consecutivas; esto se llama correlación
serial negativa. Implica que hay algún tipo de ciclo (como un bolígrafo dulum) detrás del dibujo de
perturbaciones estocásticas. Por ejemplo, podría existir una correlación serial negativa en el
término de error de una ecuación que está en primeras diferencias porque los cambios en una
variable a menudo siguen un patrón cíclico. Sin embargo, en la mayoría de las aplicaciones de
series temporales, la correlación serial pura negativa es mucho menos probable que la
96 CAPÍTULO 6 VIOLACIÓN DE SUPUESTOS CLÁSICOS

correlación positiva. correlación serial pura tiva. Como resultado, la mayoría de los
econometristas que analizan la correlación serial pura se preocupan principalmente por la
correlación serial positiva.

6.4.3 Correlación serial impura


Por correlación serial impura nos referimos a la correlación serial causada por un error de
especificación, como una variable omitida o una forma funcional incorrecta. mientras puro
6.4 CORRELACIÓN SERIE 97

Figura 6.2: Correlación serial positiva

La correlación serial es causada por la distribución subyacente del término de error de la


especificación verdadera de una ecuación (que el investigador no puede cambiar), im La
correlación serial pura es causada por un error de especificación que a menudo puede corregirse.
¿Cómo es posible que un error de especificación provoque una correlación en serie?
Recuerde que el término de error puede considerarse como el efecto de variables omitidas,
no linealidades, errores de medición y perturbaciones estocásticas puras en la dependencia.
variable de abolladura. Esto significa, por ejemplo, que si omitimos una variable relevante o
utilizamos la forma funcional incorrecta, entonces la porción de ese efecto omitido que no puede
ser representada por las variables explicativas incluidas debe ser absorbida por el término de
error. El término de error para una ecuación especificada incorrectamente incluye una porción del
efecto de cualquier variable omitida y/o una porción del efecto de la diferencia entre la forma
funcional adecuada y la elegida por el investigador. .
Este nuevo término de error podría estar correlacionado en serie incluso si el verdadero no lo
está. Si este es el caso, la correlación serial ha sido causada por la elección de una
especificación por parte del investigador y no por el término de error puro asociado con la
especificación correcta.
98 CAPÍTULO 6 VIOLACIÓN DE SUPUESTOS CLÁSICOS

6.4.4 Consecuencias de la correlación serial


1. La correlación serial pura no causa sesgo en las estimaciones del coeficiente.
Si el término de error está correlacionado serialmente, se viola uno de los supuestos del
teorema de Gauss-Markov, pero esta violación no causa que las estimaciones del coeficiente
estén sesgadas. Sin embargo, si la correlación serial es impura, se puede introducir sesgo por el
uso de una especificación incorrecta. Esta falta de sesgo no significa necesariamente que las
estimaciones de MCO de los coeficientes de una ecuación correlacionada serialmente estarán
cercanas a los valores verdaderos de los coeficientes. Una única estimación observada en la
práctica puede provenir de una amplia gama de valores posibles. Además, los errores estándar
de estas estimaciones normalmente aumentarán con la correlación serial. Este aumento
aumentará la probabilidad de que a ^ difiera significativamente del verdadero
Val
or p . Lo que imparcial significa en este caso es que la distribución de las P s todavía está
centrada alrededor de la verdadera
PAG .
2. La correlación serial hace que OLS ya no sea la varianza mínima estimada. mator (de
todos los estimadores lineales insesgados). Aunque la violación del Supuesto Clásico IV no
causa sesgo, sí afecta la otra conclusión principal del Teorema de Gauss-Markov, la de la
varianza mínima. El término de error correlacionado serialmente hace que la variable dependiente
fluctúe de manera que el proceso de estimación de MCO A veces se atribuyen atributos a las
variables independientes. Por lo tanto, es más probable que MCO subestime la verdadera
P frente a la correlación serial. En conjunto, los P siguen siendo
insesgados porque las sobreestimaciones son tan probables como las subestimaciones, pero
estos errores aumentan la varianza de la distribución de las estimaciones, aumentando la
probabilidad de que cualquier estimación dada difiera de la verdadera.
PAG .
3. La correlación serial hace que las estimaciones MCO de los SE (3) estén sesgadas, lo
que lleva a pruebas de hipótesis poco confiables. Con la correlación serial, la fórmula MCO para
el error estándar produce estimaciones sesgadas de los SE (3). Debido a que el SE (3) es un
componente principal del estadístico t , estos SE (3) sesgados causan puntuaciones t sesgadas y
pruebas de hipótesis poco confiables en general. En esencia, la correlación serial hace que OLS
produzca puntuaciones SE (3) sy t incorrectas. Por lo tanto, no sorprende que la mayoría de los
econometristas sean muy reacios a poner mucha fe en las pruebas de hipótesis que se realizaron
frente a la correlación serial pura.

6.4.5 Detección de correlación serial


Para detectar la correlación serial, se puede usar
El testículo de DurbinñWatson se utiliza para determinar si existe una correlación serial de
primer orden. relación en el término de error de una ecuación examinando los residuos de una
estimación particular de esa ecuación, la prueba del multiplicador de Lagrange (LM), que verifica la
6.4 CORRELACIÓN SERIE 99

correlación serial analizando qué tan bien los residuos rezagados explican el residuo de la
ecuación original en una ecuación que También incluye todas las variables explicativas del
modelo original. Si los residuos rezagados son significativos para explicar los residuos de este
tiempo, entonces podemos rechazar la hipótesis nula de que no hay correlación serial. El punto
de partida para corregir un problema de correlación serial es observar cuidadosamente la
especificación de la ecuación en busca de posibles errores que podrían estar causando una
correlación serial impura.
¿Es correcta la forma funcional?
¿Estás seguro de que no hay variables omitidas?
Sólo después de que se haya revisado cuidadosamente la especificación de la ecuación se
debe considerar la posibilidad de un ajuste por correlación serial pura.
Mínimos cuadrados generalizados (GLS) es un método para eliminar una ecuación de
correlación serial pura de primer orden y, en el proceso, restaurar la propiedad de varianza
mínima en su estimación.
Los errores estándar de Newey-West son SE (3) que tienen en cuenta la correlación serial sin

cambiar los ^ s mismos de ninguna manera.

La lógica detrás de los errores estándar de Newey-West es poderosa. Si la correlación serial


no causa sesgo en los ^ s pero sí afecta los errores estándar, entonces tiene sentido ajustar la
ecuación estimada de una manera que cambie los SE (3) s pero no los P s.
Por tanto, los errores estándar de Newey-West se han calculado específicamente para evitar
las consecuencias de la correlación serial pura de primer orden. El procedimiento de Newey-West
produce un estimador de los errores estándar que, si bien está sesgado, generalmente es más
preciso que los errores estándar no corregidos para muestras grandes (más de 100) frente a la
correlación serial. Como resultado, los errores estándar de Newey-West se pueden utilizar para
pruebas t y otras pruebas de hipótesis en la mayoría de las muestras sin los errores de inferencia
potencialmente causados por la correlación serial. Normalmente, los SE (3) de Newey-West son
mayores que los SE (3) de MCO, lo que produce puntuaciones t más bajas y disminuye la
probabilidad de que un coeficiente estimado dado sea significativamente diferente de cero.

6.5 Heterocedasticidad
La heterocedasticidad es la violación del Supuesto Clásico V, que establece que las
observaciones del término de error se extraen de una distribución que tiene una varianza
constante. El supuesto de varianzas constantes para diferentes observaciones del término de
error (homoscedasticidad) no siempre es realista. Por ejemplo, en un modelo que explica las
alturas, es probable que las observaciones de los términos de error asociados con la altura de un
jugador de baloncesto provengan de distribuciones con variaciones mayores que las asociadas
con la altura de un ratón. La heterocedasticidad es importante porque MCO, cuando se aplica a
modelos heterocedasticos, ya no es el estimador de varianza mínima (sin embargo, todavía es
insesgado). En general, es más probable que la heterocedasticidad tenga lugar en modelos
100 CAPÍTULO 6 VIOLACIÓN DE SUPUESTOS CLÁSICOS

transversales que en modelos de series temporales. Este enfoque en


6.5 HETEROSCEDASTICIDAD 101

Sin embargo, los modelos transversales no significa que la heterocedasticidad en los modelos de
series temporales sea imposible. De hecho, la heterocedasticidad ha resultado ser un factor
importante en los estudios de series temporales de los mercados financieros.
La heterocedasticidad pura se refiere a la heterocedasticidad que es función del término de
error de una ecuación de regresión correctamente especificada . Como con serial cor relación, el uso
de la palabra "heterocedasticidad" sin ninguna modificación (como puro o impuro) implica
heterocedasticidad pura.
Tal heterocedasticidad pura ocurre cuando el Supuesto Clásico V, que como supone que la
varianza del término de error es constante, se viola en una ecuación especificada correctamente.
El supuesto V supone que:

V AR ( c ) = a 2 =a constante (i=1,2,...,N)
i

VAR1ei2 = 2=una constante 1i =1, 2, . . . , N2 (10.1)


Si se cumple este supuesto, se puede considerar que todas las observaciones del término de
error provienen de la misma distribución: una distribución con una media de cero y una varianza
de ■2. La propiedad de que 2 no cambie para diferentes observaciones del término de error se
llama homocedasticidad. En la mitad superior de la Figura 10.1 se muestra una distribución
homocedástica de términos de error; tenga en cuenta que la varianza de la distribución es
constante (aunque las observaciones individuales extraídas de esa muestra variarán bastante).
Con heterocedasticidad, la varianza de este término de error no es constante; en cambio, la
varianza de la distribución del término de error depende exactamente de qué observación se está
analizando:
V AR ( mi yo ) = o yo 2 (yo=1,2,...,N)

Tenga en cuenta que la única diferencia entre las dos ecuaciones anteriores es el subíndice ìiî
adjunto a 2 , lo que implica que en lugar de ser constante en todas las observaciones, la varianza
de un término de error heterocedástico puede cambiar dependiendo de la observación (de ahí el
subíndice ).
En homocedasticidad, la distribución del término de error tiene una varianza constante, por lo
que las observaciones se extraen continuamente de la misma distribución (que se muestra en el
panel superior). En el caso heterocedastico más simple, la heterocedasticidad discreta, habría
dos varianzas diferentes del término de error y, por lo tanto, dos distribuciones diferentes (una
más amplia que la otra, como en el panel inferior) a partir de las cuales se podrían obtener las
observaciones del término de error. ser dibujado.
La heterocedasticidad ocurre a menudo en conjuntos de datos en los que existe una gran
disparidad entre el valor observado más grande y más pequeño de la variable dependiente.
Cuanto mayor sea la disparidad entre el tamaño de las observaciones de la variable
dependiente Cuanto más capaz sea una muestra, mayor será la probabilidad de que las
observaciones de términos de error asociadas con ellas tengan diferentes varianzas y, por lo
tanto, sean heterocedásticas. Es decir, esperaríamos que la distribución del término de error para
observaciones muy grandes
102 CAPÍTULO 6 VIOLACIÓN DE SUPUESTOS CLÁSICOS

Figura 6.3: Homoscedasticidad versus heterocedasticidad discreta

podría tener una gran variación, y que la distribución del término de error para observadores
pequeños Las variaciones pueden tener una pequeña variación.
En conjuntos de datos transversales, es fácil obtener un rango tan grande entre los valores
más altos y más bajos de las variables. La diferencia entre Oromia y Gambela (o Harari) en
términos del valor Birr del consumo de bienes y servicios, por ejemplo, es bastante grande
(comparable en términos porcentuales a la diferencia entre las alturas de un jugador de
baloncesto y un ratón). Dado que los modelos transversales a menudo incluyen observaciones de
tamaños muy diferentes en la misma muestra (los estudios entre estados de Etiopía
generalmente incluyen a Oromia y Gambela como observaciones individuales, por ejemplo), la
heterocedasticidad es difícil de evitar si se van a abordar temas económicos. estudiado
transversalmente.
La forma más sencilla de visualizar la heterocedasticidad pura es imaginar un mundo en el
que las observaciones del término de error podrían agruparse en sólo dos distribuciones
diferentes, "amplia" y "estrecha". Llamaremos a esta versión simple del problema
heterocedasticidad discreta. Aquí, ambas distribuciones se centrarían en torno a cero, pero una
tendría una varianza mayor que la otra, como se indica en la mitad inferior de la figura anterior.
Note la diferencia entre las dos mitades del Ögure. Con homocedasticidad, todas las
6.5 HETEROSCEDASTICIDAD 103

observaciones de términos de error provienen de la misma distribución; con heterocedasticidad,


provienen de distribuciones diferentes.
Para ver un ejemplo de heterocedasticidad discreta, no necesitamos ir más allá de nuestra
discusión sobre las alturas de los jugadores de baloncesto y los ratones. Ciertamente
esperaríamos que la varianza de eto fuera mayor para los jugadores de baloncesto como grupo
que para los ratones, por lo que la distribución de epara las alturas de los jugadores de
baloncesto podría parecerse a la distribución "amplia" de la figura anterior, y la distribución de
efor para ratones sería mucho más estrecha. que la distribución "estrecha" en la Figura anterior.
La heterocedasticidad adopta formas muchas más complejas. De hecho, el número de
modelos diferentes de heterocedasticidad es prácticamente ilimitado, y un análisis incluso de un
pequeño porcentaje de estas alternativas sería una tarea enorme. En lugar de ello, nos gustaría
abordar los principios generales de la heterocedasticidad centrándonos en el modelo de
heterocedasticidad pura especificado con más frecuencia, tal como nos centramos en la
correlación serial pura, positiva y de primer orden en el capítulo anterior. Sin embargo, no permita
que este enfoque le lleve a concluir que a los econometristas sólo les preocupa un tipo de
heterocedasticidad.
En este modelo de heterocedasticidad, la varianza del término de error está relacionada con
una variable exógena Z . Para una ecuación de regresión típica:
i

Y yo = ^ 0 + p yo X 1 yo + p 2 X 2 yo + mi yo

la varianza del término de error €, que de otro modo sería clásico, podría ser igual a:

V AR ( e i ) = a 2 Z i

donde Z puede ser o no una de las X de la ecuación. La variable Z se llama factor de


proporcionalidad porque la varianza del término de error cambia de proporción. aliado de Z i .
Cuanto mayor sea el valor de Zi , mayor será la varianza de la distribución de la iésima
observación del término de error. Habría N distribuciones diferentes, una para cada observación,
de las que se podrían extraer las observaciones del término de error en función del número de
valores diferentes que tome Z. Para ver cómo se ven las distribuciones homocedásticas y
heterocedásticas del término de error con respecto a Z , compare las dos figuras siguientes.
Tenga en cuenta que la distribución heterocedástica se vuelve más amplia a medida que Z
aumenta, pero que la distribución homocedástica mantiene el mismo ancho sin importar el valor
que tome Z.
¿Cuál es un ejemplo de factor de proporcionalidad Z? ¿Cómo es posible que una variable
exógena como Z cambie toda la distribución de un término de error? Piense en una función que
relacione los gastos de consumo de un estado con sus ingresos. No es probable que los gastos
de un estado pequeño como Rhode Island sean tan variables en valor absoluto como los gastos
de un estado grande como California porque un cambio del 10 por ciento en el gasto de un
estado grande implica mucho más dinero.
104 CAPÍTULO 6 VIOLACIÓN DE SUPUESTOS CLÁSICOS

que un cambio del 10 por ciento para uno pequeño. En tal caso, la variable dependiente serían
los gastos de consumo y un factor de proporcionalidad probable, Z, sería la población. A medida
que la población aumentaba, también lo hacía la varianza del término de error de una ecuación
construida para explicar los gastos. Las distribuciones de términos de error se parecerían a las de
la Figura XXX, donde la Z en la Figura XXX es población.
Este ejemplo ayuda a enfatizar que es probable que la heterocedasticidad ocurra en
situaciones cruzadas. modelos seccionales debido a la gran variación en el tamaño de la variable
dependiente involucrada. Una perturbación exógena que podría parecer enorme para un Estado
pequeño podría parecer minúscula para uno grande, por ejemplo.
La heterocedasticidad puede ocurrir en un modelo de series de tiempo con una cantidad
significativa de cambio en la variable dependiente. Si estuviera modelando las ventas de
reproductores de DVD entre 1994 y 2015, es muy posible que tenga un término de error
heterocedástico. A medida que se produjo el fenomenal crecimiento de la industria, la varianza
del término de error probablemente también aumentó. Sin embargo, tal posibilidad es poco
probable en series temporales que tienen bajas tasas de cambio.
La heterocedasticidad también puede ocurrir en cualquier modelo, serie temporal o sección
transversal, donde la calidad de la recopilación de datos cambia dramáticamente dentro de la
muestra. A medida que mejoren las técnicas de recopilación de datos, la varianza del término de
error debería disminuir porque los errores de medición están incluidos en el término de error. A
medida que los errores de medición disminuyen en tamaño, también debería hacerlo la variación
del término de error. Para más información sobre este tema (llamado "errores en las variables"),
consulte la Sección 14.6.

Probabilidad
Distribución
de esos €

Figura 6.4: Término de error homocedástico con respecto a Z i

Si un término de error es homocedástico con respecto a Z i , la varianza de la distribución La


composición del término de error es la misma (constante) sin importar cuál sea el valor de Z i : V
AR ( e i ) = a .
Si un término de error es heterocedástico con respecto a Z i , la varianza de la distribución La
evolución del término de error cambia sistemáticamente en función de Z . En este ejemplo, la
i

varianza es una función creciente de Z , como en V AR ( €


i

1) = un
Zi.
La heterocedasticidad causada por un error en la especificación, como una variable omitida,
se conoce como heterocedasticidad impura. La heterocedasticidad impura por lo tanto
6.5 HETEROSCEDASTICIDAD 105

Figura 6.5: Término de error heterocedástico con respecto a Z i

es similar a la correlación serial impura.


Una variable omitida puede causar un término de error heterocedástico porque la porción del
efecto omitido no representada por una de las variables explicativas incluidas debe ser absorbida
por el término de error. Si este efecto tiene un componente heterocedástico, el término de error
de la ecuación mal especificada podría ser heterocedástico incluso si el término de error de la
ecuación verdadera no lo es. Esta distinción es importante porque , en el caso de
heterocedasticidad impura, el remedio correcto es encontrar la variable omitida e incluirla en la
regresión . Por lo tanto, es importante asegurarse de que su especificación sea correcta antes de
intentar detectar o remediar la heterocedasticidad pura.

1.1.1 Las consecuencias de la heterocedasticidad


Si se sabe que el término de error de su ecuación es heterocedástico, ¿qué significa eso para la
estimación de sus coeficientes? Si el término de error de una ecuación es heterocedástico,
existen tres consecuencias principales:
1. La heterocedasticidad pura no causa sesgo en las estimaciones de los coeficientes.
Incluso si se sabe que el término de error de una ecuación es puramente heterocedasticidad, esa
heterocedasticidad no causará sesgo en las estimaciones de MCO de los coeficientes. Esto es
cierto porque, aunque los grandes errores positivos son más probables, también lo son los
grandes errores negativos. Los dos tienden a promediarse entre sí, lo que deja al estimador MCO
aún imparcial. Como resultado, podemos decir que una ecuación especificada correctamente que
tiene heterocedasticidad pura todavía tiene la propiedad de que:

mi (pag.
)= ^ para todos ^ s

La falta de sesgo no garantiza estimaciones de coeficientes "exactas", especialmente porque


la heterocedasticidad aumenta la varianza de las estimaciones, pero la distribución de las
estimaciones todavía se centra alrededor de la verdadera
B . Las ecuaciones con heterocedasticidad
impura causada por una variable omitida, por supuesto, tendrán un posible sesgo de
especificación.
106 CAPÍTULO 6 VIOLACIÓN DE SUPUESTOS CLÁSICOS

2. La heterocedasticidad normalmente hace que MCO ya no sea el estimador de varianza


mínima (de todos los estimadores lineales insesgados). La heterocedasticidad pura no causa
sesgo en las estimaciones de los coeficientes de MCO, pero sí afecta la propiedad de varianza
mínima.
Si el término de error de una ecuación es heterocedástico con respecto a una proporción
factor de realidad Z:
V AR ( c yo ) = o 2 Z yo

entonces la porción de varianza mínima del teorema de GaussñMarkov no se puede probar


porque hay otros estimadores lineales insesgados que tienen variaciones más pequeñas.
antepasados.
Esto se debe a que el término de error heterocedástico hace que la variable dependiente
fluctúe y el procedimiento de estimación MCO atribuye esta fluctuación a las variables
independientes. Por lo tanto, es más probable que MCO subestime la verdadera
p frente a
la heterocedasticidad. Los P siguen siendo insesgados porque las sobreestimaciones son tan
probables como las subestimaciones.
3. La heterocedasticidad hace que las estimaciones de MCO de los SE (3) estén sesgadas,
lo que lleva a pruebas de hipótesis e intervalos de confianza poco fiables. Con
heterocedasticidad, la fórmula MCO para el error estándar produce estimaciones sesgadas de los
SE (3) s. Debido a que el SE (3) s es un componente principal en el estadístico t, estos bi Los SE
(3) calculados causan puntuaciones t sesgadas y pruebas de hipótesis poco confiables en
general. En esencia, la heterocedasticidad hace que OLS produzca puntuaciones t y SE (3)
incorrectas. Por lo tanto, no sorprende que la mayoría de los econometristas sean muy reacios a
poner mucha fe en las pruebas de hipótesis que se realizaron frente a la heterocedasticidad pura.
¿Qué tipo de sesgo en los errores estándar tiende a causar la heterocedasticidad?
Normalmente, la heterocedasticidad hace que las estimaciones MCO de los errores estándar
sean bi hacia abajo, haciéndolos demasiado pequeños. A veces, sin embargo, están sesgados
pabellón; Es difícil de predecir en cualquier caso dado. Pero de cualquier manera, es un gran
problema para las pruebas de hipótesis y los intervalos de confianza. La heterocedasticidad pura
puede arruinar bastante nuestros resultados. Las pruebas de hipótesis dejarán de ser fiables y los
intervalos de confianza serán engañosos.

1.1.2 Pruebas de heterocedasticidad


Como hemos visto, la heterocedasticidad es un problema potencialmente desagradable. La
buena noticia es que existen muchas pruebas de heterocedasticidad. La mala noticia es que la
heterocedasticidad puede adoptar muchas formas diferentes y ninguna prueba puede
encontrarlas todas.
En esta subsección, describiremos dos de las pruebas de heterocedasticidad más populares
y poderosas, la prueba de Breusch-Pagan y la prueba de White. Si bien ninguna de las pruebas
6.5 HETEROSCEDASTICIDAD 107

puede "probar" que existe heterocedasticidad, estas pruebas a menudo pueden darnos una idea
bastante clara de si es un problema o no.
Antes de utilizar cualquier prueba de heterocedasticidad, es una buena idea comenzar con
las siguientes preguntas preliminares:

1. ¿Hay algún error de especificación obvio? ¿Existe alguna variable probable omitida? ¿Ha
especificado un modelo lineal cuando un modelo de doble registro es más apropiado? No pruebe
la heterocedasticidad hasta que la especificación sea lo mejor posible. Después de todo, si
encuentras heterocedasticidad en un modelo especificado incorrectamente, existe la posibilidad
de que sea impuro.
2. ¿Existen señales tempranas de advertencia de heterocedasticidad? Así como ciertos
tipos de nubes pueden advertir sobre posibles tormentas, ciertos tipos de datos pueden señalar
una posible heterocedasticidad. En particular, si el valor máximo de la variable dependiente es
muchas, muchas veces mayor que su mínimo, tenga cuidado con la heterocedasticidad.
3. ¿Muestra una gráfica de los residuos alguna evidencia de heterocedasticidad? A veces
ahorra tiempo graficar los residuos frente a un posible factor de proporcionalidad Z o frente a la
variable dependiente. Si ve un patrón en los residuos, tiene un problema. Consulte las figuras a
continuación para ver algunos ejemplos de patrones heterocedásticos en los residuos.

z,

Si traza los residuos de una ecuación con respecto a una proporción potencial Z factor de
108 CAPÍTULO 6 VIOLACIÓN DE SUPUESTOS CLÁSICOS

realidad, un patrón en los residuos es una indicación de una posible heterocedasticidad.

Tenga en cuenta que las figuras anteriores muestran ejemplos "de libro de texto" de
heterocedasticidad. El mundo real casi siempre es mucho más complicado que los gráficos de los
libros de texto. No es inusual observar una trama residual del mundo real y no estar seguro de si
existe un patrón o no. Como resultado, incluso si no hay errores de especificación obvios, ni
señales de advertencia tempranas ni patrones residuales visibles, es una buena idea hacer una
prueba estadística formal de heterocedasticidad, así que será mejor comenzar.

La prueba de Breusch-Pagan

La prueba de BreuschñPagan es un método para probar la heterocedasticidad en el término de


error investigando si los residuos al cuadrado pueden explicarse mediante posibles factores de
proporcionalidad.
Los pasos para BreuschñPagan
Paso 1: Obtenga los residuos de la ecuación de regresión estimada. Para una ecuación con

dos variables independientes, esto sería: bb b

ei = Yi - Yi = Yi - 3o - BXl - b2X2i

Paso 2: Utilice los residuos al cuadrado como variable dependiente en una ecuación auxiliar.
Como variables explicativas en la regresión auxiliar, utilice variables de la derecha de la
regresión original que sospeche que podrían ser factores de proporcionalidad. Para muchos
investigadores, la opción predeterminada es incluirlos todos.

mi yo 2 = un 0 + un 1 X 1 yo + un 2 X 2 yo + ui (6.1)

Paso 3: Pruebe la significancia general de la ecuación anterior (6.1) con una prueba de chi-
cuadrado. Las hipótesis nula y alternativa son:

H 0 : un 1 = un 2 =0
HA : H 0 es falso
6.5 HETEROSCEDASTICIDAD 109

La hipótesis nula es la homocedasticidad, porque si a 1 = a 2 = 0 , entonces la varianza es


igual a a 0 , que es una constante. La estadística de prueba aquí es NR 2
, o el tamaño de la
muestra (N) multiplicado por el R no ajustado de la ecuación anterior. Esta estadística de prueba
2

tiene una distribución chi-cuadrado con grados de libertad iguales al número de coeficientes de
pendiente en la regresión auxiliar (la ecuación anterior). Si NR 2
es mayor o igual que el valor
crítico de chi-cuadrado, entonces rechazamos la hipótesis nula de homocedasticidad.
Si tiene una fuerte sospecha de que sólo ciertas variables son factores Z plausibles, entonces
debe ejecutar la prueba de BreuschñPagan utilizando sólo una intersección y las variables
sospechosas. Por supuesto, los grados de libertad para el estadístico chi-cuadrado cambiarían en
tal situación, porque son iguales al número de variables del lado derecho en la ecuación auxiliar.
Si está seguro de conocer el único factor de proporcionalidad Z y de que no hay otras formas de
heterocedasticidad presentes, ni siquiera necesita jugar con la estadística chi-cuadrado. Puedes
hacer una prueba t bilateral en b para Z.
Los puntos fuertes de la prueba de BreuschñPagan son que es fácil de usar y poderosa si la
heterocedasticidad está relacionada con uno o más factores de proporcionalidad lineal. Su
debilidad es que si no encuentra la heterocedasticidad, sólo significa que no hay evidencia de
heterocedasticidad relacionada con las Z que ha elegido. Si está bastante seguro de que las X en
la regresión auxiliar son los únicos factores de proporcionalidad plausibles, puede estar tranquilo.

La prueba blanca

Probablemente la más popular de todas las pruebas de heterocedasticidad es la prueba de


White. porque puede encontrar más tipos de heterocedasticidad que cualquier otra prueba.
Veamos cómo funciona.
La prueba de White investiga la posibilidad de heterocedasticidad en una ecuación al ver si
los residuos al cuadrado pueden explicarse mediante las variables independientes de la
ecuación, sus cuadrados y sus productos cruzados. Para ejecutar la prueba de White:
1. Obtenga los residuos de la ecuación de regresión estimada.
2. Calcule una regresión auxiliar, utilizando los residuos al cuadrado como variable
dependiente, con cada X de la ecuación original, el cuadrado de cada X y el producto de cada X
por cada otro X como variables explicativas.

mi yo 2 = un 0 + un 1 X 1 yo + un 2 X 2 yo + un 3 X 1 2 yo + un 4 X 2 2 yo + un 5 X 1 yo X 2 yo + u yo

3. Pruebe la significación general de la ecuación con una prueba de chi-cuadrado. Una vez
más, la estadística de prueba aquí es NR 2 , o el tamaño de la muestra (N) multiplicado por el R 2

no ajustado de la ecuación anterior. Esta estadística de prueba tiene una distribución chi-
cuadrado con grados de libertad iguales al número de coeficientes de pendiente en la regresión
auxiliar (la ecuación anterior). La hipótesis nula es que todos los coeficientes de pendiente en la
regresión auxiliar (la ecuación anterior) son iguales a cero, y si NR 2 es mayor o igual que el valor
crítico de chi-cuadrado, entonces rechazamos la hipótesis nula de homocedasticidad.
Consulte las variables explicativas en la ecuación de la diapositiva anterior. Incluyen todas las
110 CAPÍTULO 6 VIOLACIÓN DE SUPUESTOS CLÁSICOS

variables del modelo original, sus cuadrados y sus productos cruzados. Incluir todas las variables
del modelo original permite que la prueba de White verifique si alguna o todas son factores de
proporcionalidad Z. Incluir todos los términos al cuadrado y productos cruzados nos permite
probar tipos de heterocedasticidad más exóticos y complejos. Ésta es la mayor fortaleza de la
prueba blanca.
Sin embargo, la prueba de White contiene más variables del lado derecho que la regresión
original, a veces muchas más. Esta puede ser su mayor debilidad. Para ver por qué, observe que
a medida que aumenta el número de variables explicativas en una regresión original, el número
de variables del lado derecho en la regresión auxiliar de la prueba de White aumenta mucho más
rápido. Con tres variables en el modelo original, la regresión de White podría tener nueve. Con 12
variables explicativas en el modelo original, ¡podría haber 90 en la regresión de White con todos
los cuadrados y términos interactivos incluidos! Y aquí es donde la debilidad se convierte en un
verdadero problema.
Si el número de variables del lado derecho en la regresión auxiliar excede el número de
observaciones, no podrá ejecutar la regresión de prueba de White porque tendría grados de
libertad negativos en la ecuación auxiliar. Incluso si los grados de libertad en la ecuación auxiliar
son positivos pero pequeños, la prueba de White podría no detectar la heterocedasticidad porque
cuantos menos grados de libertad haya, menos poderosa será la prueba estadística. En tal
situación, estaría limitado a la prueba BreuschñPagan o una alternativa.

6.5.3 Remedios para la heterocedasticidad

Lo primero que se debe hacer si la prueba de BreuschñPagan o la prueba de White indican la


posibilidad de heterocedasticidad es examinar la ecuación cuidadosamente en busca de errores
de especificación. Aunque nunca se debe incluir una variable explicativa simplemente porque una
prueba indica la posibilidad de heterocedasticidad, se debe pensar rigurosamente en la
especificación de la ecuación. Si este replanteamiento le permite descubrir una variable que
debería haber estado en la regresión desde el principio, entonces esa variable debe agregarse a
la ecuación. De manera similar, si para empezar tenías la forma funcional incorrecta, el
descubrimiento de la heterocedasticidad podría ser la pista que necesitas para repensar la
especificación y cambiar a la forma funcional que mejor represente la teoría subyacente. Sin
embargo, si no hay errores de especificación obvios, la heterocedasticidad probablemente sea de
naturaleza pura y se debe considerar una de las soluciones descritas en esta sección.

Errores estándar corregidos por heterocedasticidad

El remedio más popular para la heterocedasticidad es la postura corregida por


heterocedasticidad. errores estándar, que ajustan la estimación de los SE (3) para
heterocedasticidad sin dejar de utilizar las estimaciones de MCO de los coeficientes de
pendiente. La lógica detrás de este enfoque es poderosa. Dado que la heterocedasticidad causa
6.5 HETEROSCEDASTICIDAD 111

problemas con los SE (3) s pero no con los B, tiene sentido mejorar la estimación de los SE (3) s
de una manera que no altere las estimaciones de los coeficientes de pendiente. Este enfoque es
prácticamente idéntico al uso de los errores estándar de Newey-West como remedio para la
correlación serial.
Los errores estándar corregidos por heterocedasticidad (HC) son SE (3) que se han calculado
específicamente para evitar las consecuencias de la heterocedasticidad. El procedimiento HC
produce un estimador de los errores estándar que, si bien están sesgados, generalmente son
más precisos que los errores estándar no corregidos para muestras grandes frente a la
heterocedasticidad. Como resultado, los HC SE (3) se pueden utilizar en pruebas t y otras
pruebas de hipótesis en la mayoría de las muestras sin los errores de inferencia potencialmente
causados por la heterocedasticidad. Normalmente, los HC SE (3) son mayores que los MCO SE
(3), lo que produce puntuaciones t más bajas y disminuye la probabilidad de que un coeficiente
estimado dado sea significativamente diferente de cero. La técnica fue sugerida por Halbert White
en el mismo artículo en el que propuso la prueba de White para la heterocedasticidad.
Existen algunos problemas con el uso de errores estándar corregidos por heterocedasticidad.
Primero, la técnica funciona mejor en muestras grandes, por lo que es mejor evitar HC SE (3) en
muestras pequeñas. En segundo lugar, los detalles del cálculo de los HC SE (3) están fuera del
alcance de este texto e implican un modelo que es sustancialmente más general que el
constructo teórico básico, V AR (€
i ) = a 2 Z , de esta sección. Además, no todos los
i

paquetes de software de regresión calculan errores estándar corregidos por heterocedasticidad.

Redefinir las variables

Otro método para eliminar la heterocedasticidad de una ecuación es volver a la teoría básica
subyacente de la ecuación y redefinir las variables de manera que se evite la heterocedasticidad.
Una redefinición de las variables suele ser útil para permitir que la ecuación estimada se centre
más en los aspectos conductuales de la relación. Semejante replanteamiento es un proceso difícil
y desalentador porque parece descartar todo el trabajo ya realizado.
Sin embargo, una vez revisado el trabajo teórico, los enfoques alternativos que se descubren
suelen ser interesantes porque ofrecen posibles formas de evitar problemas. problemas que
antes parecían insuperables. Sin embargo, tenga cuidado. Redefinir sus variables es un cambio
de especificación de forma funcional que puede cambiar dramáticamente
112 CAPÍTULO 6 VIOLACIÓN DE SUPUESTOS CLÁSICOS

tu ecuación. En algunos casos, la única redención que se necesita para librar a una ecuación La
función de la heterocedasticidad es cambiar de una forma funcional lineal a una forma funcional
de doble registro. La forma de doble registro tiene inherentemente menos variación que la forma
lineal, por lo que es menos probable que encuentre heterocedasticidad. Además, hay muchos
temas de investigación para los que la forma logarítmica doble es tan teóricamente lógica como la
forma lineal. En otras situaciones, podría ser necesario repensar completamente el proyecto de
investigación en términos de su teoría subyacente.
Por ejemplo, consideremos un modelo transversal de los gastos totales de los gobiernos de
diferentes ciudades. Las variables explicativas lógicas a considerar en dicho análisis son el
ingreso agregado, la población y el salario promedio en cada ciudad. Cuanto mayor sea el
ingreso total de los residentes y las empresas de una ciudad, por ejemplo, mayores serán los
gastos del gobierno de la ciudad. En este caso, no es muy esclarecedor saber que las ciudades
más grandes tienen mayores ingresos y mayores gastos (en magnitud absoluta) que las más
pequeñas. Ajustar una línea de regresión a esos datos también otorga una ponderación indebida
a las ciudades más grandes porque, de lo contrario, darían lugar a residuos cuadrados grandes.
Es decir, dado que MCO minimiza la suma de los residuos cuadrados, y dado que es probable
que los residuos de las grandes ciudades sean grandes debido simplemente al tamaño de la
ciudad, la estimación de regresión será especialmente sensible a los residuos de las ciudades
más grandes. A esto se le suele llamar "correlación espuria" debido al tamaño. Además, los
residuos pueden indicar heterocedasticidad.
Tiene sentido considerar reformular el modelo de manera que descarte el factor de escala (el
tamaño de las ciudades) y enfatice el comportamiento subyacente. En este caso, el gasto per
cápita sería una variable dependiente lógica. Esta forma de ecuación coloca a Addis Abeba en la
misma escala que, digamos, Adama, Hawasa, Bahir Dar, Mekele y, por lo tanto, les da el mismo
peso en la estimación. Sin embargo, si una variable explicativa no fuera función del tamaño de la
ciudad, no sería necesario ajustarla a términos per cápita. Si la ecuación incluyera el salario
promedio de los trabajadores de la ciudad, por ejemplo, ese salario no se dividiría por la
población en la ecuación transformada. Supongamos que su ecuación original es

EXP i = ^ 0 + p 1 POP i + p 2 INC i + p 3 SALARIO i +€i

donde EXP i se refiere al gasto, INC i se refiere a los ingresos, W AGE i se refiere al salario
promedio, P OP se refiere a la población de la ciudad.
i
6.5 HETEROSCEDASTICIDAD 113

La ecuación transformada sería donde u i es un término de error homocedástico clásico. Si


bien la ecuación transformada directamente probablemente evita la heterocedasticidad, tal
solución debe considerarse incidental a los beneficios de repensar la ecuación de una manera
que se centre en la base. comportamiento sico que se examina. Tenga en cuenta que es posible
que la ecuación reformulada tenga heterocedasticidad; las variaciones de error podrían ser
mayores para la observación ciones que tienen valores per cápita más altos para los gastos que
los que tienen valores per cápita más pequeños. Por tanto, es legítimo sospechar y comprobar la
heterocedasticidad incluso en este modelo transformado.
EXP y INC i
= un 0 + un 1 + a 2 SALARIO i + u i
POP i POP i

Sin embargo, tal heterocedasticidad en la ecuación transformada es poco probable porque


habrá poca variación en el tamaño normalmente asociada con la heterocedasticidad.
La ecuación transformada anterior es muy similar a la ecuación de mínimos cuadrados
ponderados (WLS).
Los mínimos cuadrados ponderados son un remedio para la heterocedasticidad que consiste
en dividir calcular toda la ecuación (incluida la constante y el término de error heterocedástico)
mediante el factor de proporcionalidad Z y luego reestimar la ecuación con MCO. Para el ejemplo
anterior, la ecuación WLS sería: donde las variables y
EXP y INC i SALARIO i
= ^ 0+ ^ 1+ ^ 2 + tu
POP i POP i POP yo yo

Los p s de la ecuación anterior son idénticos a los de la ecuación de


la diapositiva anterior. Dividir por Z significa que u es un término de error homocedástico siempre
que Z sea el factor de proporcionalidad correcto. Sin embargo, este no es un problema trivial y
otras transformaciones y HCSE son mucho más fáciles de usar que WLS, por lo que ya no se
recomienda el uso de WLS.
Capítulo 7

Modelos de regresión para variables


categóricas y dependientes limitadas II

7.1 Objetivos de aprendizaje


• La diferencia entre variables económicas cualitativas y cuantitativas.

• Cómo incluir una variable indicadora 0ñ1 en el lado derecho de una regresión, cómo esto
afecta la interpretación del modelo y dar un ejemplo.

• Cómo interpretar el coeficiente de una variable indicadora en una ecuación log-lineal


ción.

• Cómo incluir una variable indicadora de pendiente en una regresión, cómo esto afecta la
interpretación del modelo y dar un ejemplo.

• Cómo incluir un producto de dos variables indicadoras en una regresión y cómo esto
afecta la interpretación del modelo, dando un ejemplo.

• Cómo modelar factores cualitativos con más de dos categorías (como región del país) y
cómo interpretar el modelo resultante, dando un ejemplo.

• Las consecuencias de ignorar un cambio estructural en los parámetros durante parte de


la muestra.

• Cómo probar la equivalencia de dos ecuaciones de regresión usando el indicador vari


capaces. Según el material de este capítulo, debería poder:

• Dé algunos ejemplos de decisiones económicas en las que el resultado observado sea


una variable binaria.

• Explique por qué generalmente se prefiere probit o logit a los mínimos cuadrados cuando

IILos datos utilizados en este capítulo provienen de Gujarati, Damodar N. (2012) Econometrics by Ejemplo.
Palgrave Macmillan. Este conjunto de datos está publicado en la página web del curso.

11
3
114CAPITULO 7 MODELOS DE REGRESIÓN PARA DEP CATEGORICOS Y LIMITADOS

se estima apareamiento de un modelo en el que la variable dependiente es binaria.

• Dé algunos ejemplos de decisiones económicas en las que el resultado observado es una


elección entre varias alternativas, tanto ordenadas como desordenadas.

• Compare y contraste el modelo logit multinomial con el modelo logit condicional.

• Dé algunos ejemplos de modelos en los que la variable dependiente es una variable de


conteo.

• Analice las implicaciones de los datos censurados para la estimación de mínimos


cuadrados.

• Describa lo que se entiende por la frase "selección de muestras".

7.2 Introducción
En todos los modelos de regresión que hemos considerado hasta ahora, hemos asumido
implícitamente que el regresando, la variable dependiente o la variable de respuesta Y es
cuantitativa, mientras que las variables explicativas son cuantitativas, cualitativas (o ficticias) o
una combinación de ellas. . Hemos analizado brevemente cómo se introducen los regresores
ficticios (variables explicativas) en un modelo de regresión y qué papel desempeñan en
situaciones específicas.
En este capítulo consideramos varios modelos en los que el regresando (la variable
dependiente) en sí es de naturaleza cualitativa. Aunque se utilizan cada vez más en diversas
áreas de las ciencias sociales y la investigación médica, los modelos de regresión de respuesta
cualitativa plantean interesantes desafíos de estimación e interpretación. Supongamos que
queremos estudiar la decisión de participación en la fuerza laboral (PFL) de los hombres
adultos. Dado que un adulto está o no en la fuerza laboral, la LFP es una decisión de sí o no.
Por lo tanto, la variable respuesta, o regresando, sólo puede tomar dos valores, digamos, 1 si la
persona está en la fuerza laboral y 0 si no lo está. En otras palabras, el regresando es una
variable binaria o dicotómica. Para los presentes propósitos, lo importante a tener en cuenta es
que el regresando es una variable cualitativa. Se pueden pensar en varios otros ejemplos en los
que el regresando es de naturaleza cualitativa. Así, una familia posee una casa o no la tiene,
tiene seguro de invalidez o no, tanto el marido como la mujer están en la fuerza laboral o sólo
uno de los cónyuges lo está. De manera similar, un determinado medicamento es eficaz para
curar una enfermedad o no lo es. Una Örm decide declarar un dividendo en acciones o no, un
parlamentario decide votar o no a favor de una reducción de impuestos. No tenemos que
restringir nuestra variable de respuesta únicamente a categorías dicotómicas o de sí/no.
Podemos tener una variable de respuesta policotómica (o de múltiples categorías).

Lo que planeamos hacer es considerar primero el regresor dicotómico y luego considerar


7.3 EL MODELO LOGIT 115

varias extensiones del modelo básico. Pero antes de hacer eso, es importante señalar una
diferencia fundamental entre un modelo de regresión en el que el regresante Y es cuantitativo y
un modelo en el que es cualitativo. En un modelo donde Y es cuantitativo, nuestro objetivo es
estimar su valor esperado o medio dados los valores de los regresores. En modelos donde Y es
cualitativo, nuestro objetivo es encontrar la probabilidad de que algo suceda, como ser
propietario de una casa, pertenecer a un sindicato, participar en un deporte, etc. Por lo tanto, los
modelos de regresión de respuesta cualitativa a menudo se conocen como modelos de
probabilidad.
En el resto de este capítulo, buscamos respuestas a las siguientes preguntas:
1. ¿Cómo estimamos los modelos de regresión de respuesta cualitativa? ¿Podemos
simplemente estimarlos con los procedimientos habituales de MCO?
2. ¿Existen problemas especiales de inferencia? En otras palabras, ¿el procedimiento de
prueba de hipótesis es diferente de los que hemos aprendido hasta ahora?
3. Si un regresando es cualitativo, ¿cómo podemos medir la bondad de Öt de tales
modelos? ¿Tiene algún valor el R 2 calculado convencionalmente en tales modelos?
4. Una vez que vamos más allá del caso del regresivo dicotómico, ¿cómo estimamos e
interpretamos los modelos de regresión policotómicos? Además, ¿cómo manejamos modelos
en los que el regresado es ordinal , es decir, una variable categórica ordenada, como la
escolaridad (menos de 8 años, de 8 a 11 años, 12 años y 13 o más años), o el regresado es
¿Nominal donde no existe un orden inherente, como el origen étnico (negro, blanco, hispano,
asiático y otros)?
5. ¿Cómo modelamos fenómenos como el número de visitas al médico por año, el número
de patentes recibidas por una empresa en un año determinado, el número de artículos
publicados por un profesor universitario en un año, el número de llamadas telefónicas recibidas
en un lapso de 5 minutos, o el número de autos que pasan por una caseta de peaje en un lapso
de 5 minutos? Estos fenómenos, llamados datos de recuento o datos de eventos raros , son un
ejemplo del proceso de Poisson (probabilidad).
Comenzamos nuestro estudio de los modelos de respuesta cualitativos de Örst
considerando el modelo de regresión de respuesta binaria. Existen cuatro enfoques para
desarrollar un modelo de probabilidad para una variable de respuesta binaria:
1. El modelo de probabilidad lineal (LPM)
2. El modelo logit
3. El modelo probit
4. El modelo tobit

7.3 El modelo logit


El modelo de probabilidad lineal (LPM) utiliza el método OLS para determinar la probabilidad.
capacidad de un resultado. Como resultado, sufre los siguientes problemas:
116CAPITULO 7 MODELOS DE REGRESIÓN PARA DEP CATEGORICOS Y LIMITADOS

1. El LPM supone que la probabilidad del resultado se mueve linealmente con el valor de la
variable explicativa, sin importar cuán pequeño o grande sea ese valor.
2. El valor de probabilidad debe estar entre 0 y 1, pero no hay garantía de que los valores
de probabilidad estimados a partir del LPM se encuentren dentro de estos límites.
3. El supuesto habitual de que el término de error tiene una distribución normal no se
puede mantener cuando la variable dependiente toma sólo valores de 0 y 1, ya que sigue la
distribución binomial.
4. El término de error en el LPM es heteroscedástico, lo que hace sospechosas las
pruebas de significancia tradicionales.
Utilicemos la propiedad de vivienda para explicar las ideas básicas que subyacen al modelo
logit. Al explicar la propiedad de la vivienda en relación con el ingreso, el LPM fue

P yo = ^ 1 + p 2 X yo

donde X es el ingreso y P = E( Y = 1j X ) significa que la familia posee una casa. Pero


i i i

consideremos ahora la siguiente representación de la propiedad de una vivienda:


1
Pi =
1 + mi segundo
^ (

1 + segundo 2 X yo )
que se puede escribir como
y Z

=
1+e ^Z
)P = yo

1+y Z

donde Z = p 1 +p 2 X yo .
La ecuación anterior representa lo que se conoce como distribución logística (acumulativa).
función de butión. Es fácil verificar que como Z i oscila entre ^1 y + 1, P i oscila entre 0 y 1 y que
P está relacionado no linealmente con Z (es decir, Xi ), satisfaciendo así los dos requisitos
i i

considerados debilidades de PLM. Pero parece que al satisfacer estos requisitos hemos creado
.

un problema de estimación porque P i es no lineal no sólo en X sino también en el


p ís como se puede ver claramente en las ecuaciones
en las diapositivas anteriores.
Esto significa que no podemos utilizar el conocido procedimiento MCO para estimar los
parámetros. Pero este problema es más aparente que real porque la ecuación de las
diapositivas anteriores se puede linealizar, lo que se muestra a continuación. Si P i , la
probabilidad de poseer una casa, está dada por (3.3), entonces (1 ^ P i ) , la probabilidad de no
poseer una casa, es
1

1 ^ P yo = 1 + mi Z
7.3 EL MODELO LOGIT 117

Por lo tanto, podemos


escribir Pi 1+y Z

1 ^ P yo = 1+ mi ^Z

Ahora P = 1 ^ P es simplemente la razón de probabilidades a favor de ser propietario de una


i i

casa: la relación entre la probabilidad de que una familia sea propietaria de una casa y la
probabilidad de que no sea propietaria de una casa. Por lo tanto, si P = 0,8, significa que las
i

probabilidades son de 4 a 1 a favor de que la familia sea propietaria de una casa. Ahora bien, si
tomamos el logaritmo natural de (3.5), obtenemos un resultado muy interesante, a saber,
Pi
L
en
= en =Z
1 ^ P yo i

= ^ 1 + ^ 2 X yo
Observe las características del modelo logit:
Cuando P va de 0 a 1, Li de ^1 a + 1. Aunque Li lineal en X , las probabilidades en sí no
i va es i

lo son. Si L i es positivo, cuando el valor de la(s) variable(s) explicativa(s) aumenta, las


probabilidades del resultado aumentan. Si es negativo, las probabilidades del resultado
disminuyen. La interpretación del modelo logit es la siguiente: cada coeficiente de pendiente
muestra cómo cambia el logaritmo de las probabilidades a favor del resultado a medida que el
valor de la variable X cambia en una unidad. Una vez estimados los coeficientes del modelo
logit, podemos calcular fácilmente las probabilidades del resultado.
En el LPM, el coeficiente de pendiente mide el efecto marginal de un cambio unitario en la
variable explicativa sobre la probabilidad del resultado, manteniendo constantes otras variables.
En el modelo logit, el efecto marginal de un cambio unitario en la variable explicativa no sólo
depende del coeficiente de esa variable sino también del nivel de probabilidad a partir del cual
se mide el cambio. Este último depende de los valores de todas las variables explicativas del
modelo. La estimación del modelo logit depende del tipo de datos disponibles para el análisis.
Hay dos tipos de datos disponibles: datos a nivel individual o micro y datos a nivel grupal.
Consideraremos primero el caso de los datos a nivel individual.

7.3.1 Datos a nivel individual


Para nuestro ejemplo de fumadores, tenemos datos de 1196 personas. Por lo tanto, aunque el
modelo logit es lineal, no puede estimarse mediante el método MCO habitual. Para ver por qué,
observe que Pi 1 si una persona fuma y Pi 0 si una persona no fuma. Pero si ponemos estos
= =

valores directamente en el logit Li obtenemos expresiones como Li =


, ln (1=0) si una persona
fuma y Li = ln (0=1) si una persona no fuma. Éstas son expresiones indefinidas. Por tanto, para
estimar el modelo logit tenemos que recurrir a métodos de estimación alternativos. El método
más popular con atractivas propiedades estadísticas es el método de máxima verosimilitud
(ML). La mayoría de los paquetes estadísticos modernos han establecido rutinas para estimar
parámetros mediante el método ML; para conocer los fundamentos teóricos de este método,
puede consultar textos avanzados.
Las siguientes son estimaciones logit para el ejemplo de fumadores analizado
118CAPITULO 7 MODELOS DE REGRESIÓN PARA DEP CATEGORICOS Y LIMITADOS

anteriormente, basadas en datos de 1196 personas.

Las variables edad y educación son altamente significativas estadísticamente (véanse los
valores z ) y tienen los signos esperados. A medida que aumenta la edad, el valor del logit
disminuye,
7.3 EL MODELO LOGIT 119

. logit fumador edad educ ingresos pcigs79


Iteración 0: logaritmo de = -794.47478
Iteración 1: = -770.92329
Iteración 2: probabilidad logaritmo = -770.84086
Iteración 3: de probabilidad = -770.84086
logaritmo de
probabilidad logaritmo
Regresión logística
fumador Coef. Estándar Errar. z P>|z| [95% Conf. Intervalo]

edad -.0208532 .003739 -5.58 0.000 -.0281814 -.013525


educar -.0909728 .0206658 -4.40 0.000 -.131477 -.0504686

ingreso 4.72e-06 7.17e-06 0.66 0.510 -9.33e-06 .0000188

pcigs79 -.0223188 .0124723 -1.79 0.074 -.046764 .0021264


_contras 2.745082 .8291962 3.31 0.001 1.119888 4.370277

Número de obs LR 1,196


chi2(4) Prob > chi2 47.27

Pseudo R2 0.0000
0.0297
Probabilidad logarítmica = -770,84086

quizás debido a problemas de salud, es decir, a medida que las personas envejecen, es menos
probable que fumen. Del mismo modo, las personas más educadas tienen menos
probabilidades de fumar, quizás debido a los efectos nocivos del tabaquismo. El precio de los
cigarrillos tiene el signo negativo esperado y es significativo en torno al nivel del 7%. Ceteris
paribus, cuanto mayor es el precio de los cigarrillos, menor es la probabilidad de fumar. Los
ingresos no tienen un impacto estadísticamente visible sobre el tabaquismo, tal vez porque el
gasto en cigarrillos puede representar una pequeña proporción del ingreso familiar.
La interpretación de los diversos coeficientes es la siguiente: manteniendo constantes otras
variables, si, por ejemplo, la educación aumenta en un año, el valor logit promedio disminuye en
80 09, es decir, el registro de probabilidades a favor de fumar disminuye aproximadamente 0,09.
Otros coeficientes se interpretan de manera similar. Pero el lenguaje logit no es un lenguaje
cotidiano. Lo que nos gustaría saber es la probabilidad de fumar, dados los valores de las
variables explicativas. Pero esto se puede calcular a partir de la ecuación (3.2) anterior.
Para ilustrar, supongamos que el fumador número 2 en el conjunto de datos tiene las
siguientes características: edad = 28, educación = 15, ingresos = 12.500 y pcigs79 = 60,0.
Insertando estos valores en la Ecuación (3.2), obtenemos:

P = 1 + mi ^(^0 : 4935) y 0:3782

Es decir, la probabilidad de que una persona con las características dadas sea fumadora es
de alrededor del 38%. ¿Podemos calcular el efecto marginal de una variable explicativa sobre la
probabilidad de fumar, manteniendo constantes todas las demás variables? Supongamos que
queremos descubrir @P i =@Age i , el efecto de un cambio unitario en la edad sobre la
probabilidad de fumar, manteniendo constantes otras variables.
Esto fue muy sencillo en el LPM, pero no es tan sencillo con los modelos logit o probit. Esto
se debe a que el cambio en la probabilidad de fumar si la edad cambia en una unidad (digamos,
un año) depende no sólo del coeficiente de la variable edad sino también del nivel de
probabilidad a partir del cual se mide el cambio. Pero esto último depende de los valores de
todas las variables explicativas. Eviews y Stata pueden hacer este trabajo fácilmente.

. márgenes, dydx (*) en medios


120CAPITULO 7 MODELOS DE REGRESIÓN PARA DEP CATEGORICOS Y LIMITADOS

Exprés sesión : Pr(fumador), predecir()


dy/dx wrt : edad educ ingresos pcigs79

en : edad = 41.80686 (media)


educar = 12.22115 (media)
ingreso = 19304,77 (media)
pcigs79 = 60,98495 (media)

método delta

dy/dx Estándar Errar. z P>|z| [95% Conf. Intervalo]

edad -.0048903 .0008736 -5.60 0.000 -.0066025 -.0031781


educar -.0213341 .0048365 -4.41 0.000 -.0308134 -.0118548
ingreso 1.11e-06 1.68e-06 0.66 0.510 -2.19e-06 4.40e-06
pcigs79 -.005234 .0029242 -1.79 0.073 -.0109653 .0004972

Efectos marginales condicionales Número de observaciones = 1,196


Modelo VCE : OIM

7.3.2 Medidas de bondad de Öt


La medida convencional de bondad de Öt, R 2
, no es muy significativa cuando la variable
dependiente toma valores de 1 o 0. En la literatura se analizan medidas similares a R 2
,
denominadas pseudo R 2 . Una de esas medidas es la McFadden R 2 , denominada R M
2
cF . Al
igual que R 2 , R 2
McF se encuentra entre 0 y 1. Para nuestro ejemplo, su valor es 0,0927. Otra
bondad de la medida Öt es el conteo R 2 , que se define como

número de predicciones correctas


Cuenta R 2
número total de predicciones

Dado que la variable dependiente toma un valor de 1 o 0, si la probabilidad prevista para


una observación es mayor que 0,5 clasificamos esa observación como 1, pero si es menor que
0,5, la clasificamos como 0. Luego contamos el número de predicciones correctas y contamos R
2
como se definió anteriormente. Cabe destacar que en los modelos de regresión binaria la
bondad de las medidas de Öt tiene una importancia secundaria. Lo que importa son los signos
esperados de los coeficientes de regresión y su significación estadística o práctica. De nuestra
estimación anterior del fumador se ve que, excepto el coeficiente de ingresos, todos los demás
coeficientes son individualmente estadísticamente significativos, al menos al nivel del 10%.

También podemos probar la hipótesis nula de que todos los coeficientes son
simultáneamente cero con el estadístico de razón de verosimilitud (LR), que es el equivalente de
la prueba F en el modelo de regresión lineal. Bajo la hipótesis nula de que ninguno de los
regresores es significativo, el estadístico LR sigue la distribución chi-cuadrado con gl igual al
número de variables explicativas: cuatro en nuestro ejemplo. Como muestra el resultado de la
estimación para fumadores, el valor del estadístico LR es aproximadamente 47,26 y el valor p
(es decir, el nivel de significancia exacto) es prácticamente cero, refutando así la hipótesis nula.
Por tanto podemos decir que las cuatro variables incluidas en el modelo logit son determinantes
importantes del hábito de fumar.
7.3 EL MODELO LOGIT 121

7.4 Modelos de regresión multinomial


En las secciones anteriores, consideramos el modelo logit en el que el objetivo era elegir entre
dos opciones discretas: fumar o no fumar. Estos modelos se denominan modelos de regresión
dicotómicos o binarios. Pero hay muchas ocasiones en las que es posible que tengamos que
elegir entre varias alternativas discretas. Estos modelos se denominan modelos de regresión
multinomial (MRM).
Algunos ejemplos son: Opciones de transporte: automóvil, autobús, ferrocarril, bicicleta.
Elección de marcas de cereales.
Elección de educación: escuela secundaria, universidad, posgrado.
Elección de trabajo: no trabajar, trabajar a tiempo parcial o trabajar a tiempo completo.
Comprar un coche: americano, japonés, europeo.
¿Cómo estimamos modelos que implican elegir entre varias alternativas? A continuación
consideraremos algunas de las técnicas que se utilizan comúnmente en la práctica. Pero antes
de continuar, cabe señalar que existen varios nombres para estos modelos: modelos de
regresión politómicos o policotómicos (categorías múltiples). Para fines de discusión
utilizaremos el término modelos multinomiales para todos estos modelos.
Al principio podemos distinguir entre MRM nominal o desordenado y /o denominado MRM. Por
ejemplo, la elección de transporte es MRM nominal porque no existe un orden particular
(natural) entre las diversas opciones. Por otro lado, si uno responde a un cuestionario que hace
una afirmación y le pide que responda en una escala de tres respuestas, como no estoy de
acuerdo, algo de acuerdo y completamente de acuerdo, es un ejemplo de MRM ordenado. En
esta sección consideramos los MRM nominales y analizamos los MRM ordenados en la
siguiente sección. Incluso dentro de los MRM nominales tenemos que distinguir tres casos:
MRM nominal para datos específicos del selector
MRM nominal para datos específicos de elección
MRM nominal para datos específicos del elector y específicos de la elección, o MRM
nominal mixto.
Tenga en cuenta que estamos utilizando el término "elector" para representar a un individuo
o una decisión.

fabricante que tiene que elegir entre varias alternativas. Usamos el término "elección" para
representar las alternativas u opciones que enfrenta un individuo. El contexto del problema
aclarará qué término tenemos en mente. MRM nominal para selector o datos específicos
individuales. En este modelo las elecciones dependen de las características de quien elige,
como edad, ingresos, educación, religión y factores similares. Por ejemplo, en las opciones
educativas, como la educación secundaria, una educación universitaria de dos años, una
educación universitaria de cuatro años y estudios de posgrado, la edad, los ingresos familiares,
la religión y la educación de los padres son algunas de las variables que afectarán la elección. .
Estas variables son específicas del que elige. Estos tipos de modelo suelen ser es estimado
mediante modelos logit multinomial (MLM) o probit multinomial (MPM). La pregunta principal
122CAPITULO 7 MODELOS DE REGRESIÓN PARA DEP CATEGORICOS Y LIMITADOS

que responden estos modelos es: ¿Cómo influyen las características de quienes eligen?
¿Afecta su elección de una alternativa particular entre un conjunto de alternativas? Por lo tanto,
MLM es adecuado cuando los regresores varían entre individuos.

7.4.1 MRM nominal para datos específicos de elección


Supongamos que tenemos que elegir entre cuatro marcas de automóviles: Toyota, Ford, BMW,
Fiat. Tenemos datos sobre los precios de estos autos, las pantallas utilizadas por estas marcas
y las características especiales utilizadas por estas marcas. En otras palabras, tenemos
características específicas de elección. Sin embargo, en este modelo no tenemos
características específicas individuales. Estos modelos suelen estimarse mediante modelos logit
condicional (CLM) o probit condicional (CPM). La principal pregunta a la que responden estos
modelos es: ¿cómo afectan las características o rasgos de varias alternativas la elección de los
individuos entre ellas? Por ejemplo, ¿la gente compra automóviles basándose en características
como el color, la forma, la publicidad comercial y las características promocionales? Por lo
tanto, CLM o CPM son apropiados cuando los regresores varían entre alternativas.
La diferencia entre MLM y CLM se ha resumido bien de la siguiente manera:
En el modelo logit multinomial estándar, las variables explicativas son invariantes con las
categorías de resultados, pero sus parámetros varían con el resultado. En el modelo logit
condicional, las variables explicativas varían según el resultado y también según el individuo,
mientras que sus parámetros se suponen constantes en todas las categorías de resultados.
Para ilustrar el MLM, consideramos un ejemplo sobre la elección de escuela. Los datos
consisten en 1.000 graduados de escuela secundaria que se enfrentan a tres opciones: ninguna
universidad, una universidad de 2 años y una universidad de 4 años, opciones que codificamos
como 1, 2 y 3. Tenga en cuenta que las tratamos como variables nominales, aunque podríamos
haberlas tratado como ordenadas. ¿Cómo decide un graduado de secundaria entre estas
opciones?
Intuitivamente, podríamos decir que la elección dependerá de la satisfacción (o utilidad en la
jerga economista) que un estudiante obtenga de la educación superior. Él o ella elegirá la
alternativa que le proporcione la mayor satisfacción posible. Esa elección, por tanto, tendrá la
mayor probabilidad de ser elegida. Para ver cómo se puede hacer esto, sea Y ij = 1 , si el
individuo i elige la alternativa j ( j = 1, 2 y 3 en el presente caso) = 0, en caso contrario. Además,
sea TT i j = P r (Y i j = 1) donde P r representa probabilidad. Por lo tanto, TT
i1; TT
yo 2 ; TT i 3 , , representan las probabilidades de que el
individuo i elija la alternativa 1, 2 o 3, respectivamente, es decir, las alternativas de ninguna
universidad, una universidad de 2 años y una universidad de 4 años. Si estas son las únicas
alternativas que enfrenta un individuo, entonces, obviamente,
7i1 + 7i2 + 7i3 = 1

Esto se debe a que la suma de las probabilidades de eventos mutuamente excluyentes y


exhaustivos debe ser 1. A los TT los llamaremos probabilidades de respuesta. Esto significa que
en nuestro ejemplo, si determinamos dos probabilidades cualesquiera, la tercera se determina
7.3 EL MODELO LOGIT 123

automáticamente. matemáticamente. En otras palabras, no podemos estimar las tres


probabilidades de forma independiente. Ahora bien, ¿cuáles son los factores o variables que
determinan la probabilidad de elegir una opción en particular?
En nuestro ejemplo de elección de escuela tenemos información sobre las siguientes
variables:
X 2 = hscath = 1 si es graduado de escuela católica, 0 en caso contrario
X 3 = calificaciones = calificación promedio en matemáticas, inglés y estudios sociales en
una escala de calificaciones de 13 puntos, con 1 para la calificación más alta y 13 para la
calificación más baja. Por lo tanto, una nota más alta denota un bajo rendimiento académico.
X 4 = faminc = ingreso familiar bruto en 1991 en miles de dólares
X 5 = famsiz = número de miembros de la familia
X 6 = parcoll = 1 si el padre con mayor educación se graduó de la universidad o tenía un
título avanzado
X 7 = 1 si es mujer
X 8 = 1 si es negro
Usaremos X1 para representar la intersección. Observe que algunas de las variables son
cualitativas o ficticias (X2, X6, X7, X8) y otras son cuantitativas (X3, X4, X5). También tenga en
cuenta que habrá algunos factores aleatorios que también afectarán la elección, y estos factores
aleatorios se indicarán mediante el término de error al estimar el modelo.
Generalizando el modelo logit bivariado analizado en la sección anterior, podemos escribir
el modelo logit multinomial (MLM) como:

mi a j + B j X yo
P T, a
j
= j 3
=1 e j + 3 j X yo
j =1

Observe que hemos puesto el subíndice j en la intersección y el coeficiente de pendiente


para recordarnos que los valores de estos coeficientes pueden diferir de una elección a otra. En
otras palabras, un graduado de secundaria que no quiere ir a la universidad asignará un peso
diferente a cada variable explicativa que un graduado de secundaria que quiere ir a una
universidad de dos años o de cuatro años. Del mismo modo, un graduado de la escuela
secundaria que quiere ir a una universidad de dos años pero no a una de cuatro años asignará
distintos pesos (o importancia, si se prefiere) a las diversas variables explicativas. Además,
tenga en cuenta que si tenemos más de una variable explicativa en el modelo, X
124CAPITULO 7 MODELOS DE REGRESIÓN PARA DEP CATEGORICOS Y LIMITADOS

luego representará un vector de variables y luego)será un vector de coeficientes. Entonces, si


decidimos incluir las siete variables explicativas enumeradas anteriormente, tendremos siete
coeficientes de pendiente y estos coeficientes de pendiente pueden diferir de una elección a
otra. En otras palabras, las tres probabilidades estimadas a partir de la ecuación (3.10) pueden
tener coeficientes diferentes para los regresores. En efecto, estamos estimando tres
regresiones.
Como señalamos antes, no podemos estimar las tres probabilidades de forma
independiente. La práctica común en MLM es elegir una categoría o elección como categoría
base, de referencia o de comparación y establecer sus valores de coeficiente en cero. Entonces
, si elegimos la primera categoría (sin universidad) y establecemos 1 = 0 y
P 1 = 0 , obtenemos las
siguientes estimaciones de las probabilidades para las tres opciones.

Regresión logística multinomial


Estándar
pseleccion Coef. z P>|z| [95% Conf. Intervalo]
Errar.

1
hscath -14.11493 698.6953 -0.02 0.984 -1383.532 1355.303
Los .6983612 .0574514 12.16 0.000 .5857585 .810964
grados
faminc -.0148641 .0041227 -3.61 0.000 -.0229444 -.0067839
famsiz .0666033 .0720741 0.92 0.355 -.0746593 .2078659
paquete -1.02433 .2774019 -3.69 0.000 -1.568028 -.4806322
femenino .0575788 .1964323 0.29 0.769 -.3274214 .442579
negro -1.495237 .4170395 -3.59 0.000 -2.312619 -.6778546
_contr
-5.008206 .5671367 -8.83 0.000 -6.119774 -3.896638
as

2
hscath -15.10527 724.2084 -0.02 0.983 -1434.528 1404.317
Los .3988077 .0446722 8.93 0.000 .3112518 .4863635
grados
faminc -.0050481 .0025969 -1.94 0.052 -.010138 .0000418
famsiz -.0305312 .0652636 -0.47 0.640 -.1584454 .097383
paquete -.4978009 .2043127 -2.44 0.015 -.8982465 -.0973554
femenino .199134 .1705162 1.17 0.243 -.1350716 .5333397
negro -.9392084 .3788355 -2.48 0.013 -1.681712 -.1967045
_contr
-2.739292 .4401899 -6.22 0.000 -3.602048 -1.876536
as

3 (resultado base)

Número de obs 1,000


LR chi2(14) 377.82
Prob > chi2 0.0000
Probabilidad logarítmica = - Pseudo R2 0.1855
829,74657
Un coeficiente positivo de un regresor sugiere mayores probabilidades de elegir la opción 2
que de la 1, manteniendo constantes todos los demás regresores. Del mismo modo, un
coeficiente negativo de un regresor implica que las probabilidades a favor de ninguna
universidad son mayores que las de una universidad de dos años. Por lo tanto, en el Panel 1 de
la tabla de la diapositiva anterior observamos que si el ingreso familiar aumenta, las
probabilidades de asistir a una universidad de dos años aumentan en comparación con no
asistir a ninguna universidad, manteniendo constantes todas las demás variables.
De manera similar, el coeficiente negativo de la variable calificaciones implica que las
probabilidades a favor de ninguna universidad son mayores que las de una universidad de dos
años, manteniendo nuevamente todas las demás variables constantes (recuerde cómo se
codifican las calificaciones en este ejemplo). Se aplica una interpretación similar. al segundo
panel de la tabla de resultados de la diapositiva anterior. Para ser concretos, interpretemos el
coeficiente del promedio de calificaciones. Manteniendo constantes otras variables, si el
promedio de calificaciones aumenta en una unidad, la probabilidad logarítmica de preferir una
universidad de dos años a ninguna universidad disminuye aproximadamente 0,2995. En otras
7.4 MODELOS DE REGRESIÓN MULTINOMIAL 125

palabras, -0,2995 da el cambio en ln(TT


2i = TT 1i ) para un cambio unitario en el
promedio de calificaciones. Por tanto, si tomamos el antilogaritmo de ln( TT 2 i = TT 1 i ),
obtenemos TT 2 i = TT 1 i = e 02995 = 0,7412. Es decir, las probabilidades a favor de elegir una
universidad de dos años en lugar de ninguna universidad son sólo de alrededor del 74%. Este
resultado puede parecer contradictorio, pero recuerde que una calificación más alta en una
escala de 13 puntos significa un rendimiento académico deficiente. Por cierto, las probabilidades
también se conocen como índices de riesgo relativo (LRR).
Una vez estimados los parámetros, se pueden calcular las tres probabilidades, que es el
objetivo principal de MLM. Como tenemos 1000 observaciones y 7 regresores, sería tedioso
estimar estas probabilidades para todos los individuos. Sin embargo, con el comando adecuado,
Stata puede calcular dichas probabilidades. Pero esta tarea se puede minimizar si calculamos
las tres probabilidades con los valores medios de las ocho variables. Para ilustrar, para el
individuo #10, un hombre blanco cuyos padres no tenían títulos avanzados y que no fueron a
una escuela católica, tenía una calificación promedio de 6.44, un ingreso familiar de 42.5 y un
tamaño de familia de 6, sus probabilidades de elegir la opción 1 (sin universidad), u opción 2
(una universidad de 2 años) o opción 3 (una universidad de 4 años) fueron, respectivamente,
0,2329, 0,2773 y 0,4897; estas probabilidades suman 0,9999 o casi 1 debido a errores de
redondeo.
Por lo tanto, para este individuo la probabilidad más alta fue de aproximadamente 0,49 (es
decir, una universidad de 4 años). De hecho, este individuo eligió ir a una universidad de 4 años.
Por supuesto, no es cierto que las probabilidades estimadas coincidan realmente con las
decisiones tomadas por los individuos. En varios casos, la elección real fue diferente de la
probabilidad estimada de esa elección. Por eso es mejor calcular las probabilidades de elección
con los valores medios de las variables. Dejamos al lector calcular estas probabilidades.

7.5 Modelos de regresión ordinal


En muchas aplicaciones de las ciencias sociales y médicas, las categorías de respuesta están
ordenadas o clasificadas. Por ejemplo, en los cuestionarios tipo Likert las respuestas pueden
ser “muy de acuerdo”, “de acuerdo”, “en desacuerdo” o “muy en desacuerdo”. De manera
similar, en los estudios del mercado laboral podemos tener trabajadores que trabajan a tiempo
completo (más de 40 horas por semana), o que trabajan a tiempo parcial (menos de 20 horas
por semana) o que no están en la fuerza laboral. Aunque existe una clasificación clara entre las
distintas categorías, no podemos tratarlas como variables de escala de intervalo o de escala de
razón.
Por tanto, no podemos decir que la diferencia entre trabajo a tiempo completo y trabajo a
tiempo parcial o entre trabajo a tiempo parcial y ningún trabajo sea la misma. Además, la
relación entre dos categorías cualesquiera aquí puede no ser significativa en la práctica. Aunque
los modelos MLM se pueden utilizar para estimar categorías en escala ordinal, no tienen en
126CAPITULO 7 MODELOS DE REGRESIÓN PARA DEP CATEGORICOS Y LIMITADOS

cuenta la naturaleza ordinal de la variable dependiente. El logit ordinal y el probit ordinal son
7.5 MODELOS DE REGRESIÓN ORDINAL 127

Regresióncálid
logística ordenada Estándar
Coef. z P>|z| [95% Conf. Intervalo]
o Errar.

año89 .5239025 .0798989 6.56 0.000 .3673036 .6805014


mascu -.7332997 .0784827 -9.34 0.000 -.887123 -.5794765
lino
blanco -.3911595 .1183808 -3.30 0.001 -.6231816 -.1591373
edad -.0216655 .0024683 -8.78 0.000 -.0265032 -.0168278
ed .0671728 .015975 4.20 0.000 .0358624 .0984831

prst .0060727 .0032929 1.84 0.065 -.0003813 .0125267


/
cortar1 -2.465362 .2389128 -2.933622 -1.997102
/ -.630904 .2333156 -1.088194 -.1736138
cortar2 1.261854 .234018 .8031871 1.720521
/
cortar3 Número de obs 2,293
LR chi2(6) 301.72
Prob > chi2 0.0000
Logaritmo de probabilidad = - Pseudo R2 0.0504
2844,9123
desarrollado específicamente para manejar variables de escala ordinal. En la práctica, no hay
una gran diferencia si utilizamos modelos probit ordinales o logit ordinales.

7.5.1 Modelo Logit ordinal


Un ejemplo ilustrativo: actitudes hacia las madres trabajadoras
La Encuesta Social General de 1977 y 1989 pidió a los encuestados que evaluaran la
siguiente afirmación: Una madre trabajadora puede establecer una relación tan cálida y segura
con su hijo como una madre que no trabaja. Las respuestas se registraron como: 1 = totalmente
en desacuerdo, 2 = en desacuerdo, 3 = de acuerdo y 4 = totalmente de acuerdo. En total se
obtuvieron 2.293 respuestas.
Para cada encuestado tenemos la siguiente información: año89 = año de encuesta 1989,
género, hombre = 1, raza, blanco = 1, edad = edad en años, ed = años de educación, prst =
prestigio ocupacional. Usando el comando ologit de Stata, obtuvimos los resultados en la tabla
de la siguiente diapositiva.
Antes de interpretar los resultados, veamos los resultados generales. Recuerde que bajo la
hipótesis nula de que todos los coeficientes de los regresores son cero, la prueba LR sigue la
distribución chi-cuadrado con grados de libertad iguales al número de regresores, 6 en el
presente caso. En nuestro ejemplo, este valor de chi-cuadrado es aproximadamente 302. Si la
hipótesis nula fuera cierta, las posibilidades de obtener un valor de chi-cuadrado de hasta 302 o
más serían prácticamente nulas. De modo que, en conjunto, todos los regresores tienen una
fuerte influencia sobre la probabilidad de elección. El modelo también otorga al Pseudo R 2 un
valor de 0,05. Esto no es lo mismo que el R 2 habitual en la regresión MCO, es decir, no es una
medida de la proporción de la varianza en la regresión explicada por los regresores incluidos en
el modelo. Por lo tanto, el valor del Pseudo R 2 debe tomarse con cautela.
La significancia estadística de un coeficiente de regresión individual se mide mediante el
valor Z (la distribución normal estándar Z ). Todos los coeficientes de regresión, excepto el
primero, son individualmente altamente significativos estadísticamente, siendo sus valores p
prácticos. prácticamente cero. El primero, sin embargo, es significativo al nivel del 7%. Los
coeficientes de regresión que aparecen en la tabla anterior son coeficientes ordenados de
probabilidades logarítmicas (es decir, logit). ¿Qué sugieren? Tomemos, por ejemplo, el
128CAPITULO 7 MODELOS DE REGRESIÓN PARA DEP CATEGORICOS Y LIMITADOS

coeficiente de la variable educación de 80 07. Si aumentamos el nivel de educación en una


unidad (digamos, un año), las probabilidades logarítmicas ordenadas de estar en una categoría
de calidez más alta aumentan en aproximadamente 80 07, manteniéndose todas las demás re
agresores constantes. Esto es cierto para la categoría cálida 4 sobre la categoría cálida 3 o para
la categoría cálida 3 sobre 2 o para la categoría cálida 2 sobre la categoría 1. Otros coeficientes
de regresión dados en la tabla anterior deben interpretarse de manera similar. Por convención,
se elige una de las categorías como categoría de referencia y su valor de intersección se fija en
cero.
En la práctica suele ser útil calcular los odds ratios para interpretar los distintos coeficientes.
Esto se puede hacer fácilmente exponenciando (es decir, elevando e a una potencia dada) los
coeficientes de regresión estimados. Para ilustrar, tomemos el coeficiente de la variable
educación de 0,07. Exponenciando esto obtenemos e°.07 81.0725. Esto significa que si
aumentamos la educación en una unidad, las probabilidades a favor de una categoría de calidez
más alta sobre una categoría de calidez más baja son mayores que 1.
Capítulo 8

Preguntas de revisión

A continuación se presentan preguntas basadas en todos los capítulos cubiertos en este curso.
Algunas de las preguntas pueden requerir lecturas adicionales. Es bueno que inviertas tu tiempo
y practiques con estas preguntas por dos razones: primero, esta es la mejor (la única) manera de
dominar el tema; En segundo lugar, su examen Önal consta de tres o cuatro preguntas del tipo de
preguntas que enfrenta en esta tarea .

Pregunta 1 : Indique razonadamente si las siguientes afirmaciones son verdaderas, falsas o


inciertas. Se preciso.
a. La prueba t de significancia que se analiza en este curso requiere que las distribuciones
muestrales de los estimadores ^ s sigan la distribución normal.
b. Aunque el término de perturbación en el modelo clásico de regresión lineal no tiene una
distribución normal, los estimadores MCO siguen siendo insesgados.
c. Si no hay intersección en el modelo de regresión, los € i (=C) estimados no sumarán
cero.
d. El valor p y el tamaño de un estadístico de prueba significan lo mismo.
e. En un modelo de regresión que contiene la ordenada al origen, la suma de los residuos
siempre es cero.
f. Si no se rechaza una hipótesis nula, es verdadera.
g. Cuanto mayor sea el valor de a 2 , mayor será la varianza de ^ s.
h. Las medias condicional e incondicional de una variable aleatoria son lo mismo.
Pregunta 2: Considere el siguiente resultado de regresión:

Y yo = 0:2033 + 0:6560X yo
SE = (0:0976) (0:1961)
R2
= 0:397 RSS = 0:0544 ESS = 0:0358

donde Y = tasa de participación en la fuerza laboral (TPFL) de las mujeres en 1972 y X = TPFL
de las mujeres en 1968. Los resultados de la regresión se obtuvieron de una muestra de 19
ciudades de Estados Unidos.

a. ¿Cómo interpreta esta regresión?

12
9
130 CAPÍTULO 8 PREGUNTAS DE REPASO

b. Probar la hipótesis: H 0 :
p 2 =1 contra H : A

pag 2 > 1 . ¿Qué prueba utilizas?


¿Y por qué? ¿Cuáles son los supuestos subyacentes de las pruebas que utiliza?
c. Supongamos que la LFPR en 1968 fuera 0,58 (o 58 por ciento). Sobre la base de los
resultados de la regresión presentados anteriormente, ¿cuál es la TPFL media en 1972?
Establezca un intervalo de confianza del 95 por ciento para la predicción media.
d. ¿Cómo probaría la hipótesis de que el término de error en la regresión poblacional tiene
una distribución normal? Mostrar los cálculos necesarios.

Pregunta 3 : Considere la siguiente regresión

SP yo = ^ 17 : 8 + 33 : 2 Gini yo
EE = (4 : 9) (11 : 8) R2 = 0:16

Donde SPI es el índice de inestabilidad sociopolítica, promedio para 1960-1985, y Gini es el


coeficiente de Gini para 1975 o el año disponible más cercano dentro del rango de 1970-1980.
La muestra está formada por 40 países. El coeficiente de Gini es una medida de la desigualdad
del ingreso y se encuentra entre 0 y 1. Cuanto más cerca esté de 0, mayor será la igualdad de
ingresos, y cuanto más cerca esté de 1, mayor será la igualdad de ingresos.
mayor es la desigualdad de ingresos.
a. ¿Cómo interpreta esta regresión?
b. Supongamos que el coeficiente de Gini aumenta de 0,25 a 0,55. ¿Cuánto sube el SPI?
¿Qué significa eso en la práctica?
c. ¿Es el coeficiente de pendiente estimado estadísticamente significativo al nivel del 5%?
Mostrar los cálculos necesarios.
d. Con base en la regresión anterior, ¿puede argumentar que los países con mayor
desigualdad de ingresos son políticamente inestables?

Pregunta 4 : En un estudio sobre la rotación en el mercado laboral, James F. Ragan, Jr.,


obtuvo los siguientes resultados para la economía estadounidense durante el período de 1950ñI
a 1979ñIV. —
ln Y t = 4 : 47 ^ 0 : 34 ln X 2 t + 1 : 22 ln X 3 t + 1 : 22 ln X 4 t + 0 : 80 ln X 5 t ^ 0 : 0055 X 6 t
t = (4 : 28) (^5:31) (3:64) (3:10) (1:10) (^3:09)
R2 = : 5370
0

donde Y= tasa de abandono en el sector manufacturero, definida como el número de personas


que abandonan su empleo voluntariamente por cada 100 empleados
X 2 = una variable instrumental o proxy de la tasa de desempleo de hombres adultos
X 3 = porcentaje de empleados menores de 25 años
X4=N t ^ 1 =/N t ^ 4 = relación entre el empleo manufacturero en el trimestre (t-1) y el del
trimestre (t-4)
X 5 = porcentaje de empleadas
13
1
X 6 = tendencia temporal (1950ñI = 1)
a. Interprete los resultados anteriores.
b. ¿Es justificable a priori la relación negativa observada entre los logaritmos de Y y X2 ?
c. ¿Por qué el coeficiente de ln X 3 t es positivo?
d. Dado que el coeficiente de tendencia es negativo, ¿qué porcentaje hay una disminución
secular en la tasa de abandono y por qué hay tal disminución?
e. ¿El R 2 es "demasiado" bajo?
f. ¿Puedes estimar los errores estándar de los coeficientes de regresión a partir de los
datos dados? ¿Por qué o por qué no?
Pregunta 5 : Se le dan los siguientes resultados de regresión:

Y t = 16; 899 ^ 2978:5X 2 toneladas
t = (8:5152) (^4:7280)
R2
= 0:6149

Y t = 16; 899 ^ 2978: 5X 2t + 2815X 3t
t = (3:3705) (^6:6070) (2:9712)
R2
= 0:7706

¿Puedes averiguar el tamaño de la muestra que subyace a estos resultados? ( Pista :


recuerde la relación entre los valores R 2 , F y t .)
Pregunta 6 : A partir de los datos de 46 estados de Estados Unidos para 1992, Baltagi obtuvo
los siguientes resultados de regresión:
——— ___
logC = 4:30 ^ 1:34 logP +0:17logY
SE = (0:91) (0:32) (0:20) R2
= 0:27

donde C = consumo de cigarrillos, paquetes por año


P = precio real por paquete
Y = ingreso real disponible per cápita
a. ¿Cuál es la elasticidad precio de la demanda de cigarrillos con respecto al precio? ¿Es
estadísticamente significativo? Si es así, ¿es estadísticamente diferente de 1?
b. ¿Cuál es la elasticidad ingreso de la demanda de cigarrillos? ¿Es estadísticamente
significativo? Si no, ¿cuáles podrían ser las razones?
c. ¿Cómo recuperaría R 2 del R 2 ajustado dado anteriormente?
Pregunta 7 : De una muestra de 209 Örms, Wooldridge obtuvo los siguientes resultados de
regresión:
. ——— , ____________________ , - ,
log (salario) = 4:32 + 0:280 log (ventas) + 0:0174roe + 0:000ros
SE = (0:32) (0:035) (0:0041) (0:00054)
R2
= 0:27

donde salario = salario del CEO


ventas = ventas anuales de Örm
132 CAPÍTULO 8 PREGUNTAS DE REPASO

roe = rendimiento sobre el capital en porcentaje


ros = rendimiento de las acciones de Örmís y donde Ögures entre paréntesis son los esti
errores estándar acoplados.
a. Interprete la regresión anterior teniendo en cuenta cualquier expectativa previa que
pueda tener sobre los signos de los distintos coeficientes.
b. ¿Cuáles de los coeficientes son individualmente estadísticamente significativos al nivel
del 5 por ciento?
c. ¿Cuál es el significado global de la regresión? ¿Qué prueba utilizas? ¿Y por qué?
d. ¿Puedes interpretar los coeficientes de roe y ros como coeficientes de elasticidad? ¿Por
qué o por qué no?
Pregunta 8 : Con base en los datos de EE. UU. de 1965-IQ a 1983-IVQ, James Doti y
Esmael Adibi obtuvieron la siguiente regresión para explicar el gasto de consumo personal
(PCE) en los Estados Unidos.

Y = ^ 10:96 + 0:93X 2 t ^ 2:09X 3 t

t = ( ^ 3:33) (249:06) ( ^ 3:09)


R2
= 0:9996 F = 83; 753:7

donde Y = el PCE ($, en miles de millones)


X 2 = ingreso disponible (es decir, después de impuestos) ($, en miles de millones)
X 2 = la tasa preferencial (%) cobrada por los bancos
a. ¿Cuál es la propensión marginal a consumir (MPC), es decir, la cantidad de gasto de
consumo adicional proveniente de un dólar adicional de ingreso personal disponible?
b. ¿El MPC es estadísticamente diferente de 1? Muestre el procedimiento de prueba
apropiado.
c. ¿Cuál es el fundamento para la inclusión de la variable de tasa preferencial en el
modelo? A priori, ¿esperarías un signo negativo para esta variable?
d. Es
p 3 significativamente diferente de cero?
e. Pruebe la hipótesis de que R 2 = 0 .
f. Calcule el error estándar de cada coeficiente.
Pregunta 9 : En un estudio de la función de producción de la industria del ladrillo, la
cerámica, el vidrio y el cemento del Reino Unido durante el período 1961 a 1981, R. Leighton
Thomas obtuvo los siguientes resultados:

1: log Q t = ^ 5:04 + 0:887 log K + 0:893H


SE = (1:40) (0:087) (0:137) R2 = 0:6149
2: log Q t = ^ 8:57 + 0:0272t + 0:460 log K + 1:285 log H
SE = (2:99) (0:0204) (0:333) (0:324) R2 = 0:7706
13
3
donde Q = el índice de producción a costo constante de los factores
K = stock de capital bruto al costo de reposición de 1975
H = horas trabajadas
t = la tendencia temporal, un proxy de la tecnología
Los Ögures entre paréntesis son los errores estándar estimados.
a. Interprete ambas regresiones.
b. En la regresión (1), verifique que cada coeficiente de pendiente parcial sea
estadísticamente significativo al nivel del 5%.
c. En la regresión (2), verifique que los coeficientes de t y log K son individualmente
insignificantes al nivel del 5%.
d. ¿Qué podría explicar la insignificancia de la variable log K en el Modelo 2?
e. Si le dijeran que el coeficiente de correlación entre t y log K es 0,980, ¿a qué conclusión
llegaría?
f. Incluso si t y log K son individualmente insignificantes en el Modelo 2, ¿aceptaría o
rechazaría la hipótesis de que en el Modelo 2 todas las pendientes parciales son
simultáneamente iguales a cero? ¿Qué prueba usarías?
g. En el modelo 1, ¿cuáles son los rendimientos a escala?
Pregunta 10 : Considere las siguientes dos regresiones basadas en datos de EE. UU. de
1946 a 1975 (los errores estándar están entre paréntesis).

1:C t 26:19+0:6248PNB t ^ 0:4398D t


SE = (2:73)(0:0060)(0:0736) R2 = 0:999
:2.(C)_
PNB t 1D
SE = 25:92 PNB +0:6246 ^ 0:4315 PNB

(2:22) (0:0068) (0:0597) R2 = 0:875

donde C = gasto de consumo privado agregado


PNB = producto nacional bruto
D = gasto de defensa nacional
t = tiempo
El objetivo del estudio de Hanushek y Jackson era descubrir el efecto del gasto en defensa
sobre otros gastos de la economía.
a. ¿Cuáles podrían ser las razones para transformar la primera ecuación en la segunda
ecuación?
b. Si el objetivo de la transformación era eliminar o reducir la heterocedasticidad, ¿qué
supuesto se ha hecho acerca de la varianza del error?
c. Si había heterocedasticidad, ¿han logrado los autores eliminarla? ¿Cómo puedes
saberlo?
d. ¿La regresión transformada debe realizarse a través del origen? ¿Por qué o por qué no?
e. ¿Puedes comparar los valores de R 2 de las dos regresiones? ¿Por qué o por qué
no?
134 CAPÍTULO 8 PREGUNTAS DE REPASO

Pregunta 11 : A partir de los datos anuales del sector manufacturero estadounidense de 1899
a 1922, Dougherty obtuvo los siguientes resultados de regresión:

-—-
logY = 2:81 ^ 0:53 log L + 0:047t
SE = (1:38) (0:34) (0:021) R2 = 0:97 F = 189:8

donde Y = índice de producción real, K = índice de insumo de capital real, L = índice de insumo
de trabajo real, t = tiempo o tendencia.
Utilizando los mismos datos, también obtuvo la siguiente regresión:

——=
logY=L = ^ 0:11 + 0:11 log K=L + 0:047t
SE = (0:03) (0:15) (0:006) R2 = 0:65 F = 19:5

a. ¿Existe multicolinealidad en la regresión (1)? ¿Cómo lo sabes?


b. En la regresión (1), ¿cuál es el signo a priori de log K ? ¿Los resultados se ajustan a
esta expectativa? ¿Por qué o por qué no?
c. ¿Cómo justificaría la forma funcional de regresión (1)? (Pista: función de producción de
Cobbñ Douglas.)
d. Interpretar la regresión (1). ¿Cuál es el papel de la variable de tendencia en este
regreso? sión?
e. ¿Cuál es la lógica detrás de la estimación de la regresión (2)?
f. Si hubo multicolinealidad en la regresión (1), ¿se ha reducido mediante la regresión (2)?
¿Cómo lo sabes?
g. Si la regresión (2) es una versión restringida de la regresión (1), ¿qué restricción impone
el autor? (Pista: vuelve a escala). ¿Cómo sabes si esta restricción es válida? ¿Qué prueba
utilizas? Muestra todos tus cálculos.
2
h. ¿Son comparables los valores R de las dos regresiones? ¿Por qué o por qué no?
¿Cómo los harías comparables, si no lo son en la forma actual?

Pregunta 12 : Evalúe críticamente las siguientes afirmaciones:


a. “De hecho, la multicolinealidad no es un error de modelado. Es una condición de datos
deficientes”.
b. “Si no es factible obtener más datos, entonces hay que aceptar el hecho de que los
datos que tenemos contienen una cantidad limitada de información y debemos simplificar el
modelo en consecuencia. Intentar estimar modelos que son demasiado complicados es uno de
los errores más comunes entre los econometristas aplicados sin experiencia”.
c. “Es común que los investigadores afirmen que la multicolinealidad está presente cuando
Siempre que sus signos hipotéticos no se encuentren en los resultados de la regresión, cuando
las variables que a priori saben que son importantes tienen valores insignificantes, o cuando las
variables Los resultados de la regresión aleatoria cambian sustancialmente cada vez que se
elimina una variable explicativa. Desafortunadamente, ninguna de estas condiciones es
necesaria o suficiente para la existencia de colinealidad y, además, ninguna proporciona
sugerencias útiles sobre qué tipo de información adicional podría ser necesaria para resolver el
13
5
problema de estimación que presentan.
d. "... cualquier regresión de series de tiempo que contenga más de cuatro variables
independientes resulta en basura".

Pregunta 13 : A partir de datos de 54 áreas estadísticas metropolitanas estándar (SMSA),


Demaris estimó el siguiente modelo logit para explicar la alta tasa de homicidios frente a la baja
tasa de homicidios:

lnO yo = 1:1387 + 0:0014P yo + 0:0561C yo ^ 0:4050R yo

se = (0:0009) (0:0227) (0:1568)

donde O = las probabilidades de una alta tasa de homicidios, P = tamaño de la población en


1980 en miles, C = tasa de crecimiento de la población de 1970 a 1980, R = cociente de lectura,
y los se son los errores estándar asintóticos.
a. ¿Cómo interpretarías los distintos coeficientes?
b. ¿Cuáles de los coeficientes son individualmente estadísticamente significativos?
c. ¿Cuál es el efecto de un aumento de una unidad en el cociente de lectura sobre las
probabilidades de tener una tasa de homicidios más alta?
d. ¿Cuál es el efecto de un aumento de un punto porcentual en la tasa de crecimiento
demográfico sobre las probabilidades de tener una tasa de homicidios más alta?

Pregunta 14: A partir de la encuesta sobre presupuestos familiares de 1980 de la Oficina


Central Holandesa de Estadísticas, JS Cramer obtuvo el siguiente modelo logit basado en una
muestra de 2.820 hogares. El propósito del modelo logit era determinar la propiedad de un
automóvil en función del (logaritmo de) los ingresos. La propiedad de un automóvil era una
variable binaria: Y = 1 si un hogar posee un automóvil, cero en caso contrario.

L i = ^ 2:77231 + 0:347582 ln Ingresos
t = ( ^ 3:35) (4:05) \ 2 (1 gl ) = 16:681 ( valor p = 0:0000)

b . .11 1 1 cucharadita .11 .1 £· _ 12


donde L = logit estimado y donde ln Income es el logaritmo del ingreso. El
x2
mide la bondad de Öt del modelo.
a. Interpretar el modelo logit estimado.
b. A partir del modelo logit estimado, ¿cómo obtendría la expresión de la probabilidad de
poseer un automóvil?
c. ¿Cuál es la probabilidad de que un hogar con un ingreso de $20 000 tenga un
automóvil? ¿Y con un nivel de ingresos de 25.000 dólares? ¿Cuál es la tasa de cambio de
probabilidad en el nivel de ingreso de $20,000?
d. Comente la significancia estadística del modelo logit estimado.
Bibliografía

[1] Asteriou, Dimitrios, Stephen G. Hall (2011) Econometría aplicada , segunda edición ción.
Palgrave Macmillan.

[2] Gujarati, Damodar N. y Dawn C. Porter (2010) Fundamentos de econometría , cuarta edición.
McGraw-Hill/Irwin.

[3] Gujarati, Damodar N. (2012) Econometría con el ejemplo. Palgrave Macmillan.

[4] Hill, R. Carter, William E. Gri¢ths y Guay C. Lim (2011) Principios de econometría , cuarta
edición. John Wiley & Sons, Inc.

[5] Studenmund, AH y Bruce K. Johnson (2017) Uso de la econometría: una práctica Guía práctica ,
séptima edición. Educación Pearson, Inc.

[6] Wooldridge, Je§rey M. (2016) Introducción a la econometría: un enfoque moderno , sexta edición.
Aprendizaje Cengage.

13
5

You might also like