Econometrics Projects (1) 11

题目：基于 Monte Carlo Simulation 估计
最小二乘法 (OLS) 的 BLUE 性质
班级：硕 2201 留学生班
姓名：纳迪 I202221122
心雨 I202221141
李莎 I202221234
课程：高级计量经济学
课程教授：王少平教授
2023 年 2 月
目录
一、绪论.................................................................................................................. 2
二、研究内容及研究方法...................................................................................... 2
三、最小二乘法（OLS） ...................................................................................... 3
3.1 OLS 无偏性 ................................................................................................. 3
3.2 OLS 一致性 ................................................................................................. 4
3.3 OLS 有效性 ................................................................................................. 5
四、使用 Stata 14.2 的蒙特卡罗模拟.................................................................... 5
4.1 OLS 无偏性模拟 ......................................................................................... 6
4.2 OLS 正态性模拟 ......................................................................................... 8
4.3 OLS 一致性模拟 ....................................................................................... 10
4.4 违反 OLS 性质的假设 .............................................................................. 12
4.4.1 Ommited Variable Bias (遗漏变量偏差) ........................................ 12
4.4.2 Functional Form Misspecification (模型函数设定错误) ............... 13
4.4.3 Autocorrelation and Lagged Dependent Variables (自相关和滞后因
变量) 14
五、总结................................................................................................................ 16
参考文献...................................................................................................................... 18
一、绪论
在进行经济学研究的时候，计量经济学的知识是不可忽略的。做计量经济学
的意思是在给定真实现实生活中数据样本的情况下估计解释变量或者影响因素
参数，例如人口的平均值、线性回归中的系数或时间序列的自相关。除了关于估
计参数之外，我们还需要知道得出的估计量与真实值的接近程度。换句话说，我
们还需要知道它的“准确度”或“精确度”。估计量是随机变量的一个函数，因此也
可以认为它本身就是一个随机变量。估计量的属性完全由它的概率分布去描述，
然后通过该抽样分布进行假设检验，另外，抽样分布的均值和方差也是个计量经
济学里的重要观察点。
在某些情况下，做计量经济及研究的时候可以从计量经济模型中计算抽样分
布。但有时，特别是对于有限（小）样本，可能会遇到困难或者演剧结果是不可
靠的。在这情况下，我们可以利用 Monte Carlo Simulation(蒙特卡洛模拟)来获取
有关抽样分布信息以及估计量的质量信息的直观方法。
术语“Monte Carlo”指的是通过生成随机过程的许多随机实现并以某种方式
对它们进行平均来近似本人设定真实值的数量的过程。在统计学中，真实值的数
量是等于估计量和检验统计量的分布、原假设下检验统计量的大小，或某些特定
备择假设下检验统计量的功效（Davidson 和 MacKinnon，1993）。在经济理论中，
蒙特卡洛的技术用于探索具有随机元素的模型的定量特性，例如真实商业周期模
型中变量之间的相关性。
二、研究内容及研究方法
我们如何使用蒙特卡洛技术找到估计量的抽样分布？在现实生活中，我们通
常只观察一个特定大小 N 的样本，并且会给出一个估计。蒙特卡洛模拟可以设
想为一种实验室的情况，我们将现实生活中的研究重复多次(R)。每次，我们都会
从原始总体中抽取大小为 N 的不同样本。因此，我们可以多次计算估算值，任何
估计量都会有所不同。这些许多估计的经验分布近似于估计量的真实抽样分布。
本文使用蒙特卡洛模拟来试验最小二乘法(OLS)的性质，通过 Stata 来实证
OLS 的无偏性、正态性和一致性。下面是本文蒙特卡罗实验步骤：
1) 设定样本量为 N 模型中的外生部分或解释变量的真实值或从它们各自的分
布函数中设定它们的值
2) 从各自的概率分布函数中为统计模型中的误差项设定大小为 N 的随机样本
3) 计算统计模型的内生部分或被解释变量
4) 计算本人感兴趣的值（例如𝛽̂1 估计器）
5) 重复步骤 1 到 4 R 次
6) 检查感兴趣值的分布等
三、最小二乘法（OLS）
我们可以用一个 OLS 例子来解释上面模特卡罗步骤的内容。首先可以从下

面的双变量普通最小二乘模型：
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖
设定 𝜀𝑖 ∼N(0,𝜎 2 )。模型中的随机元素是𝜀𝑖 ，外生部分或变量是𝑥𝑖 ，𝑥𝑖 是固定的或随

机的。假设随机元素的真实参数 b0 和 b1 以及绘图值，我们可以模拟内生变量
𝑦𝑖 。本人想估计的值是模拟数据集中的最小二乘估计𝛽0 和𝛽1 。
蒙特卡洛摸你的核心是随机数自生成的技术。利用随机数生成器产生一系列
数字，这些数字来自特定的相同且独立分布的随机变量。实际上，这是一种数学
算法，它会产生一系列所谓的伪随机数。这些数字实际上不是随机的，因为该算
法描述了数字之间的纯粹确定性关系。然而，现在已经有了一个好的生成器，它
们就无法与真正随机数的序列区分开来，并且可以通过通常的独立性统计测试。
Judd (1998)提供了对不同伪随机数生成器的全面处理。
蒙特卡洛实验有一个重要的局限性：我们必须完全指定统计模型（数据生成
过程 Data Generation Process）。这意味着，我们必须假设模型的确定性部分、随
机（误差）项分布的形式和确切参数以及外生变量的分布。最终这是一个很大的
普遍性损失，因为实验结果仅适用于所做的研究假设。
3.1 OLS 无偏性
在有限样本的性质下，我们可以说 OLS 估计量是无偏的，这意味着 OLS 估

计量的期望值 E[𝛽̂1 ]将等于真实值参数β。无偏性并不意味着我们从观测数据（随
机样本）中获得的 OLS 估计量将等于确切的总体参数的真实值，因为由于存在

不可约误差项𝜀𝑖 ，所以线性模型仍然无法完全解释这种关系。
相反，无偏性意味着如果我们对来自同一总体的不同随机样本集重复运行线
性回归模型，那么估计量的期望值将等于真实总体参数的值。下面是估计量的期
望值等于真实值的实证：
𝑌 = 𝛽𝑋 + 𝜀 where 𝐸(𝜀) = 0
𝐸(𝛽̂ ) = 𝐸[(𝑋′𝑋)−1 𝑋′𝑌]
= 𝐸[(𝑋′𝑋)−1 𝑋′(𝛽𝑋 + 𝜀)]

= (𝑋′𝑋)−1 𝑋 ′ 𝑋 𝐸[𝛽] + (𝑋′𝑋)−1 𝑋 ′ 𝑋 𝐸[𝜀]
= 𝐼𝛽 + 0
=𝛽
虽然我们从观测数据中得到的 OLS 估计量并不等于确切的真实总体参数值，
但只要观测数据能很好地代表总体数据并且在假设下正确指定了线性模型，那么
我们的系数估计量从观察到的数据得到的应该非常接近真实的参数值。
否则，如果观察到的数据不能很好地代表总体数据，模型会出现测量误差或
者由于常见问题（例如，遗漏变量或内生性）而无法正确指定线性模型，那么我
们得到的系数估计量从观察到的数据来看会有偏的。
3.2 OLS 一致性
在渐近性质下，我们可以认为 OLS 估计量是一致的，这意味着随着样本量变

大并趋于无穷大，OLS 估计量会收敛到真实的总体参数值。下面的公式显示如果
假设成立，随着样本量变大，OLS 估计量的概率极限将等于真实总体参数的值：
∑𝑛𝑖=1(𝑋𝑖 − 𝑥̅ )𝑌𝑖 ∑𝑛𝑖=1(𝑋𝑖 − 𝑥̅ )𝑢𝑖

𝛽̂ = =𝛽+ 𝑛
∑𝑛𝑖=1(𝑋𝑖 − 𝑥̅ )2 ∑𝑖=1(𝑋𝑖 − 𝑥̅ )2
where 𝑢𝑖 = 𝑌𝑖 − 𝑌̂𝑖
plim ∑𝑛𝑖=1(𝑋𝑖 − 𝑥̅ )𝑢𝑖

plim 𝛽̂ = 𝛽 +
plim ∑𝑛𝑖=1(𝑋𝑖 − 𝑥̅ )2
𝐶𝑜𝑣(𝑋, 𝑢)
=𝛽+
𝑉𝑎𝑟(𝑋)
从上面的公式当可以知道，在 E[ε|X]=0 成立时，会使 Cov(X, u) = 0，则公式
中后面的第二项就等于 0。这样我们就已经证明，随着样本量变大，OLS 估计量

将收敛到真实的参数值，说明因此 OLS 估计量是一致的。如果 Cov(X, u)≠0，则
我们有一个不一致的估计量，说明随着样本量的增加，不一致的问题不会消失。
同时，OLS 估计量也是有偏的。如果 Cov(X, u) > 0 表示 x 与误差项正相关，则
渐近偏差向上。如果 Cov(X, u) < 0，意味着 x 与误差项负相关，则渐近偏差向下。
大样本属性很重要，例如大样本的一致性，这是因为实际上我们的样本是有
限的。如果我们能够证明当样本量变大时估计量是一致的，那么我们可能对有限
样本中的估计量更有信心和乐观。另一方面，如果估计量不一致，我们知道估计
量在有限样本中是有偏的。
3.3 OLS 有效性
为了评估线性回归模型的估计量，我们基于其偏差和方差使用其模型的有效。
无偏但没有最小方差的估计器不是最好的；方差最小但有偏差的估计器不是最好
的；无偏且方差最小的估计器是最好的（有效的）。OLS 估计是最佳（有效）估
计，是因为 OLS 估计在所有线性和无偏估计中方差最小。
四、使用 Stata 14.2 的蒙特卡罗模拟
在 Stata 应用中已经有一些帮助自动生成随机数字的命令，在这次模拟我们
使用的命令是：
uniform()
这个命令是帮助生成正态分布的随机数。在 Monte Carlo Simulation 中，为了
估计 OLS 的 BLUE 性质，首先需要生成真实值的解释变量、误差项、和被解释
变量。我们可以通过对双变量回归模型中的 OLS 估计量的属性检验来解释在
Stata 14.2 中蒙特卡罗模拟的不同步骤。在 Stata 中设置蒙特卡洛模拟的第一个任
务是定义一个程序 (Program) 来产生单个模拟的结果，本文使用的程序为：
program MCS1, rclass
clear
set obs 100
generate e = rnormal() 步骤 (1)
generate x = rnormal() 步骤 (2)
gy=3+3*x+e 步骤 (3)
regress y x 步骤 (4)
return scalar b0=_b[_cons]
return scalar b1=_b[x]
end
上面程序里面的 clear 清除了内存中的数据，并 set obs 100 的命令将每个样
本中的观察数设置为 N = 100。步骤 (1) 的命令是帮助实现标准正态（Gaussian）
均值为 0 和标准差为 1 的正态分布的误差项 u。步骤 (2) 的命令帮助生成独立和
分布为正太的变量 x。步骤 (3) 将根据 DGP (Data Generation Process)计算被解释
变量 y 的实现为 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 ，可以知道真实参数值𝛽0 = 3和𝛽1 = 3。步
骤 (4) 的命令将对 y 和 x 进行线性回归并且估计𝛽̂0 和𝛽̂1 的估计量。程序里的最
后两行指定了在此蒙特卡罗模拟中检验的值：𝛽̂0 和𝛽̂1 ，它们将分别以名称 b0 和
b1。程序的定义或手续可以直接输入到命令窗口或作为 Do-file 的一部分。

下面的命令是本文模拟的步骤 (5) ，是单个实验 R 次的反复执行过程。下面
的命令是一个特殊的 Stata 命令，simulate 命令可以执行此过程并生成一个包含
结果的新数据集。
simulate alpha=r(b0) beta=r(b1), reps(1000): MCS1 步骤 (5)
上面的命令将执行单个实验 R= 1000 次并生成一个新数据集，其中包含两个
变量 beta0 和 beta1 的 1000 个观察值，每行观察值包含单个实验的估计参数。
步骤 (6)是检查蒙特卡罗模拟的结果，本次步骤可以通过使用描述性统计的
常用命令检查新变量 b0 和 b1 来完成的，例如 summarize 和 Histogram 的命令。
然后我们将把程序连同结果分析一起保存在一个 Do-file 中。本次 Do-file 应该以
命令开头为：
clear
program drop _all
以便在重新定义之前从内存中清除过去的程序。
4.1 OLS 无偏性模拟
为了实验 OLS 的无遍性，我们需要从解释变量的估计系数 (𝛽̂1 ) 和真实值

(𝛽1 ) 进行判断，如果𝛽̂1 等于或接近𝛽1 的值，说明 OLS 估计是无偏的。下面是通
过 Stata 的运行代码进行 OLS 无遍性的蒙特卡洛模拟，该模拟显示了当误差项
(ε) 和解释变量 (x) 服从正态分布且 x 和 ε 相互独立的时候 OLS 斜率系数是无
偏的。
clear
program drop _all
program define MCS1, rclass
clear
set obs 100
generate u=rnormal()
generate x=rnormal()
g y = 3+3*x+u
reg y x
end
simulate alpha=r(b0) beta1=r(b1),reps(1000): MCS1
histogram beta
在上面的代码可以知道已经定义真实值𝛽0 和 𝛽1都为 3。在 Stata 利用上面的
代码进行实验，可以模拟获得固定参数 (𝛽̂0)和 beta (𝛽̂1 ) 的估计量为：

表 4-1 系数估计的结果
Variable Obs Mean Std. Dev. Min Max
1,000 3.00096 .1007735 2.65379 3.254264
Alpha (𝛽̂0)
1,000 3.000282 .1032391 2.647476 3.333216

Beta (𝛽̂1 )
上面的表 4-1 表示，固定参数(𝛽̂0)和解释变量 x 系数(𝛽̂1 )的均值都几乎接近
3.000，表明𝛽̂0 和𝛽̂1 的估计量等于真实值𝛽0 和 𝛽1 ，所以从该模拟的结果可以得出
结论 OLS 是无偏的。另外，我们也可以通过 histogram 命令来看 beta (𝛽̂1 )的分布：

4
3
Density
2
1
0
2.6 2.8 3 3.2 3.4

beta
图 4-1 beta 估计量的直方图
图 4-1 表示，beta (𝛽̂1 )的分布集中在 3，这也表明𝛽̂1 的估计量等于真实值𝛽1 为
3，说明 OLS 是无偏的。
4.2 OLS 正态性模拟
正态性是估计回归的重要特征之一。为了实验 OLS 的正态性我们可以在 Stata

中使用以下命令代码进行正常性检验：
clear
program drop _all
clear
set obs 1000
g y = 3+3*x+u
reg y x
end
histogram beta
summarize beta
MCS1
sktest
为了检查 OLS 估计的正态性，本文使用了两种方法，从上面的 Stata 代码可
以看后面两个命令；histogram 和 sktest。Histogram beta 命令帮助我们看出程序
中生成 beta (𝛽̂1 )的分布；sktest 命令是 stata 中的偏度和峰度的正态性检验。使用
上面的代码进行模拟可以得出下面的结果：
4
3
Density
2
1
0
2.6 2.8 3 3.2 3.4

r(b1)
图 4-2 正态性直方图
对于样本量 N=1000 进行蒙特卡洛模拟之后，我们详细地检查 beta (𝛽̂1 )的直
方图。图 4-2 显示 beta (𝛽̂1 )分布有正常形状，而且直方图是对称的，也可以知道
beta (𝛽̂1 )的平均值等于 3.001。
继续这一思路，本文使用的第二正态性检验是偏度和峰度检验，专注于 beta
(𝛽̂1 )是否符合正态性的要求。正态性检验确定概率，随机变量具有正态分布。检
验结果列于下表。
表 4-2 偏度和峰度检验结果
Variable Obs Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
beta 1,000 0.5210 0.9156 0.43 0.8080
正态性检验有以下假设：
H0: 变量服从正态分布。
H1: 变量不服从正态分布。
偏度机率（Pr. Skewness）为 0.5210，因此偏度有正态分布（它的 p 值>0.05）。
峰度机率（Pr. Kurtosis）
等于 0.9156，所以峰度也是正态分布的（峰度的 p 值>0.05）。
除此之外，卡方检验（chi（2））等于 0.8080，因此检验在 5%水平下显著,所以我
们不能拒绝零假设。
10
5
0
-5
-4 -2 0 2 4
x
y Fitted values
图 4-3 残差分布
上面是 OLS 模型残差分布的图形。残差是实际值和预测值之间的差异。预测

值位于线上。我们假设残差来自正态分布。偏离直线的残差导致模型正常性的扰
乱。如果没有偏离，可以进行模特检验，计算显著性水平并解释结果。在该图的
基础上，可以得出 y 值对应于正态分布定律的结论。
4.3 OLS 一致性模拟
实验最小二乘法 (OLS) 的一致性属性可以通过上面使用的 Stata 代码进行模

拟，本次实验为了实证 OLS 的一致性，已经决定了有 5 次实验过程，每个过程
假设不同的样本量。一致性模拟设置的样本量(N)为 1000、3000、5000、8000、
和 10000。使用的代码如下：
clear
program drop _all
clear
set obs 1000
g y = 3+3*x+u
reg y x
end
histogram beta
有 5 次实验，为了进行不同样本量的模拟，每次实验只需要更改 set obs 1000
的数。利用 Stata 可以获得下面不同样本量 beta (𝛽̂1 )的模拟结果:
30
25
Density
Density
Density
20
20
15
15
10
10
10
5
5
0
0
2.9 2.95 3 3.05 3.1 2.95 3 3.05 2.94 2.96 2.98 3 3.02 3.04
beta beta beta
图 4-2 样本量 N=1000 图 4-3 样本量 N=3000 图 4-4 样本量 N=5000

40
40
30
30
Density
Density
20
20
10
10
0
2.94 2.96 2.98 3 3.02 3.04 2.96 2.98 3 3.02 3.04

beta beta
图 4-5 样本量 N=8000 图 4-6 样本量 N=10000
从上面的图 4-2 到图 4-6 可以知道，随着样本量 N 的增加，集中在真实值𝛽1 =3
的估计量𝛽̂1 越多。该模拟实证了如果样本量越来越多或无穷大的时候，解释变量
x 的系数𝛽̂1 会等于𝛽1 ，或者|𝛽̂1 − 𝛽1|=0，说明 OLS 的估计是一致的。

表 4-3 不同样本量的描述结果
N Obs Mean Std. Dev. Min Max
1000 3.000531 .0317598 2.899221 3.087975
3000 2.99918 .0182095 2.938925 3.052503
𝛽̂1
5000 2.999912 .014268 2.947354 3.050887
8000 3.00023 .0112073 2.964977 3.033812
10000 2.99999 .0099233 2.968455 3.032097
表 4-3 表示，在不同样本量的情况下本次回归结果的𝛽̂1 估计量都与真实值 3
接近，而且在样本量增大的时候，𝛽̂1 估计量的最大值和最小值越来越接近真实值
3，说明因为 OLS 是一致的。另外，因为 OLS 是一致的，所以在样本量 N 为无
穷大的时候，𝛽̂1 估计量会等于真实值𝛽1 。
4.4 违反 OLS 性质的假设
4.4.1 Ommited Variable Bias (遗漏变量偏差)
当 OLS 模型未能包含一个或多个相关变量时，就会出现我们所叫的遗漏变
量偏差。换句话说，这意味着我们在分析中遗漏了一个重要因素。结果，模型错
误地将缺失变量的影响归因于包含的变量。另外，排除重要变量可能会限制研究
结果的有效性。遗漏变量是与研究的假设原因和假设结果相关的混杂变量。换句
话说，它与自变量和因变量都有相关。
OLS 回归模型描述了一个或多个自变量（也称为预测变量、协变量或解释变
量）与因变量（通常称为响应变量或目标变量）之间的关系。由于遗漏的变量是
隐藏的或未观察到的，因此不会将其纳入我们的分析中，影响我们的结果或者会
导致𝐸[𝑈𝑖 |𝑋𝑖 ] ≠ 0。总而言之，如果遗漏变量与因变量或一个或多个其他自变量
有相关，这可能会影响您的结果。
为了实证遗漏变量误差的想象，我们可以通过下面的模特卡罗模拟去观察。
我们首先设定真实值的误差(u)跟解释变量 X 有相关。下面是本次模拟使用的
Stata 代码：
clear
set obs 10000
set seed 111
generate a = rchi2(1)
generate x1 = rnormal() + a
generate x2 = rchi2(2)-3 + a
generate e = rchi2(1) - 1
generate y = 3 - 3*x1 + 3*x2 + e
quietly regress y x1 x2
estimates store real
quietly regress y x1
estimates store omitted
estimates table real omitted, se
从上面的代码可以看出，首先我们需要为 X1 和 X2 随机生成一个公共数据
为 a。设定好各个变量之后，就可以进行回归。在本次模拟我们进行两个回归，
一个是 Y 对 X1 和 X2 进行回归和另外一个是 Y 对 X1 进行回归，然后从两个回
归结果观察 X1 变量的系数。下面是真实回归(real)和遗漏变量回归(omitted)的结
果：
表 4-4 real 和 omitted 回归结果
Variable real omitted
x1 -2.9871046 -.98421618
.00915198 .03818187
x2 2.9999393
.00648263
_cons 2.9920283 1.0049106
.01678995 .0768551
从上面的表 4-4 可以知道，X1 在 X2 包含在模型中的时候(真实回归结果)，
它的系数是无偏的。但是在 X2 不包含在回归中的时候(遗漏变量回归)，X1 的系
数是有偏的。所以本次模拟展示了遗漏变量的想象。
4.4.2 Functional Form Misspecification (模型函数设定错误)
如果真实回归模型是非线性的但样本回归模型是线性的，则样本回归模型是
模型函数设定错误，这会导致 OLS 估计量的偏差。当估计的回归模型的函数形
式不同于总体回归模型的函数形式时，回归会遭受函数形式的错误指定。函数形
式的错误指定会导致系数估计有偏差和不一致。检测模型函数形式指定错误的一
种方法是绘制估计的回归函数和数据，所以这会有助于选择正确的函数形式。
为了实证模型函数设定错误的想象，接下来我们通过 Stata 进行模特卡罗模
拟，我们可以使用下面的代码进行模拟：
clear
set obs 1000
generete y = 3+3*x^3+u
reg y x
graph twoway (lfitci y x) (scatter y x)
从上面的代码可以看出，我们设定了在 X 对 Y 的回归模型中，X 的函数是
平方，这是本次模拟的模型函数设定错误的假设。然后通过 reg 命令得到回归结
果并观察 X 的系数，另外我们也使用了 Graph twoway 命令来查看分布。下面是
模拟的结果：
表 4-5 模型函数设定错误模拟的回归结果
y Coef. Std. Err.
x 8.706769 .2227229
_cons 3.111628 .2255643
上面的表 4-5 回归的结果可以知道 X 的系数是为 8.7068，这个系数是有偏
的，因为 X 的系数跟真实值的 X 系数为 3 不一致。可以得出结论因为 X 在模型
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖𝟑 + 𝜀𝑖 里的函数是平方的，所以就导致样本回归的结果有偏差
或者 X 的系数跟真实值不一致。
150
100
50
0
-50
-100
-4 -2 0 2 4
x
95% CI Fitted values

y
图 4-7 模型函数设定误差的散点图
图 4-7 告诉我们在存在模型函数设定错误时，y 对 x 的分布不是线性，因为
样本回归非线性，所以就会导致最优拟合线不能解释所有模型的想象，换句话来
说最优拟合线不适合样本 OLS 回归的分布。所以通过本次模特卡罗模拟我们成
功展示模型函数设定错误的想象。
4.4.3 Autocorrelation and Lagged Dependent Variables (自相关与滞后因变量)
在残差之间具有一阶自相关的线性回归中，如果用作回归模型的因变量没有
滞后，则最小二乘法是一致的。而且，如果模型包含滞后因变量，并且存在自相
关，则最小二乘法是不一致的。所以本次模拟我们可以通过模特卡罗模拟来证明。
让模型成为
𝑦𝑡 = 𝛽1 + 𝛽2 𝑥𝑡 + 𝛿𝑦𝑡−1 + 𝑢𝑡 𝑡 = 1,2, … , 𝑛
𝑢𝑡 = 𝜌𝑢𝑡−1 + 𝑣𝑡
从上面的公式，其中𝜌是参数，𝑣𝑡 是均值为零和方差为𝜎 2 的随机误差。该模型
包含多种可能性。如果𝛿 = 0 模型是通常的 AR(1)模型，如果𝜌 = 0 则它是滞后的
因变量模型，如果两者都 𝛿= 0 和 𝜌= 0 模型就简化为基础的 OLS 模型。平稳
性要求 |𝜌|< 1，所以如果 |𝛿| = 1，则因变量是非平稳的，应建模为变化(𝑦𝑡 − 𝑦𝑡−1 )
而不是水平(level)。
完整模型可以写成 ARDL(2,1)：
𝑦𝑡 = 𝛽1 (1 − 𝜌) + 𝛽2 𝑥𝑡 + (𝛿 + 𝜌)𝑦𝑡−1 − (𝜌𝛽2 )𝑥𝑡−1 − (𝜌𝛿)𝑦𝑡−2 + 𝑣𝑡
进行本次模拟模型可以回答很多问题，其中，LDV 模型自相关时最小二乘有多
少偏差？这是否取决于自相关的程度？假设模型是自相关的但很小，最小二乘是
否有严重偏差？等等。
本次模拟还介绍了自相关自变量的能力𝑥𝑡 = 𝜃𝑥𝑡−1 + 𝑣𝑡 。这是有用的，否则
𝑥𝑡 和𝑦𝑡−1将不会同时相关；因此，在模型中省略滞后因变量不会造成𝛽2估计的不
一致。这可以通过在模拟中设置𝜃= 0 来去实证。正如我们在大多数这些模拟中所
做的那样，我们在模拟中将截距参数的值设置为零，这可以在不失一般性的情况
下完成。
Stata 中使用的代码如下所示：
global nobs = 200 replace u = rho*L.u + rnormal(0,sigma) in 2/$nobs
global nmc = 1000 replace y = beta*x+delta*L.y + u in 2/$nobs
set seed 10101 reg y x /* b1 OLS, w/o LDV */
set obs $nobs scalar b1 = _b[x]
gen time = _n scalar se1 = _se[x]
tsset time reg L(0/1).y x /* b2 LDV w/o Prais */
scalar b2 = _b[x]
scalar theta = .8 /* autocorrelation in x */ scalar se2 = _se[x]
scalar beta = 10 /* slope for x */ prais L(0/1).y x, twostep /* b3 LDV w/Prais */
scalar sigma = 20 /* variance of y */ scalar b3 = _b[x]
scalar delta = .5 /* coeff for lagged y */ scalar se3 = _se[x]
scalar rho = .8 /* autocorrelation in errors */ reg L(0/2).y L(0/1).x /* b4 ARDL(2,1) */
scalar b4 = _b[x]
gen x = rnormal() scalar se4 = _se[x]
replace x = theta*L.x + rnormal() in 2/$nobs post `sim' (b1) (b2) (b3) (b4) (se1) (se2) (se3) (se4)
gen u = 0 }
gen y = 0 }
postclose `sim'
program regLDV, rclass end
tempname sim
postfile `sim' b1 b2 b3 b4 se1 se2 se3 se4 using results, replace regLDV
quietly { use results, clear
forvalues i = 1/$nmc { summarize
在本次模拟中有几个新东西。首先，在第 1 行和第 2 行创建了全局宏变量；
nobs 命令允许我们设置每个样本将包含的观察数量，而 nmc 命令允许您设置要
绘制的模拟样本的数量。在第 4 行中，set obs $nobs 命令打开一个空数据集，其
中包含用于 nobs 观察的空间。自回归自变量是在第 14 行和第 15 行创建的。而
且在第 16 行和第 17 行设置零来填充误差和因变量。所以本质上，这设置允许将
时间序列的初始值设置为零。
创建一个名为 regLDV 的程序，并使用 rclass 选项给出返回分类；这允许将
在 regLDV 程序中计算的某些东西携带到 regLDV 之外。我们需要这个设置才能
将系数和标准误差的计算结果发布到指定的数据集。
replace 命令可以帮助构建时间序列，而无需诉诸递归。然而，必须谨慎进行
模拟，以将观察结果限制在可用的范围内。因此，在第 24 行和第 25 行中，需要
in2/$nobs 限定符。在本次模拟中，𝑢1 = 0和𝑦1 = 0由于这些系列在上面被初始化
的方式。后续值将使用 25 和 26 中的公式计算。
本次模拟的其余部分比较直接。估计模型并收集统计数据并将其发布到称为
sim 命令的临时内存位置。该模型以多种方式进行估计：1) 省略了𝑦𝑡−1 的最小二
乘法、2) 包含𝑦𝑡−1 的最小二乘法，但忽略了误差中的自相关、3) 具有两步 Prais-
Winsten 变换的 LDV 模型和、4 ) 正确指定的 ARDL(2,1)模型。模拟的结果显
示如下：
表 4-6 自相关与之后因变量的模拟结果
Variable Obs Mean Std. Dev. Min Max

b1 1,000 17.03052 6.043275 -1.884542 33.9419
b2 1,000 4.994699 1.434378 .3861954 10.44216
b3 1,000 7.688663 1.626185 3.30791 13.05769
b4 1,000 10.01367 1.42649 5.512013 14.54223
在上面的表 4-6 可以知道，基于 1000 次模拟，很明显只有 ARDL(2,1)估计器
(b4)接近真实值 10。另外，b1 的高方差的原因是由于模拟中𝜌的高值。
五、总结
最佳估计是那些无偏且方差最小的估计。当您的模型满足假设时，定理表明
OLS 过程产生具有最小方差的无偏估计。抽样分布以实际人口值为中心，并且
是尽可能紧密的分布。最后，这些不仅是 OLS 可以产生的最佳估计，而且是
任何线性模型估计器可以产生的最佳估计。
OLS 无偏性: 在有限样本的性质下,我们可以说 OLS 估计量是无偏的,这意味着
OLS 估,计量的期望值 E[𝛽̂1 ]将等于真实值参数β。。无偏性并不意味着我们从观
测数据(随机样本)中获得的 OLS 估计量将等于确切的总体参数的真实值,因为

由于存在不可约误差项𝜀𝑖 ,所以线性模型仍然无法完全解释这种关系。
OLS 一致性: 在渐近性质下,我们可以认为 OLS 估计量是一致的,这意味着随着
样本量变大并趋于无穷大,OLS 估计量会收敛到真实的总体参数值。
OLS 有效性:为了评估线性回归模型的估计量,我们基于其偏差和方差使用其模
型的有效。无偏但没有最小方差的估计器不是最好的;方差最小但有偏差的估计
器不是最好的;无偏且方差最小的估计器是最好的(有效的)。OLS 估计是最佳
(有效)估计,是因为 OLS 估计在所有线性和无偏估计中方差最小。
蒙特卡洛实验有一个重要的局限性:我们必须完全指定统计模型(数据生成
过程 Data Generation Process)。这意味着,我们必须假设模型的确定性部分、随机
(误差)项分布的形式和确切参数以及外生变量的分布。最终这是一个很大的普
遍性损失,因为实验结果仅适用于所做的研究假设。
参考文献
[1] Cameron, A. Colin and Pravin K. Trivedi (2005), Microeconometrics: Methods and
Applications, Cambridge University Press. Section 7.7.
[2] Davidson, Russell and James G. MacKinnon (1993), Estimation and Inference in
Econometrics, Oxford University Press, chapter 21.
[3] Judd, Kenneth L. (1998), Numerical Methods in Economics, MIT Press, chapter 8.
[4] Kennedy, Peter (2003), A Guide to Econometrics, 5th ed., Blackwell Publishing, section
2.10.

Econometrics Projects (1) 11

Uploaded by

Copyright:

Available Formats

You might also like

Econometrics Projects (1) 11

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Econometrics Projects (1) 11

Uploaded by

Copyright:

Available Formats

题 目： 基于 Monte Carlo Simulation 估计

最小二乘法 (OLS) 的 BLUE 性质

我们可以用一个 OLS 例子来解释上面模特卡罗步骤的内容。首先可以从下

设定 𝜀𝑖 ∼N(0,𝜎 2 )。模型中的随机元素是𝜀𝑖 ，外生部分或变量是𝑥𝑖 ，𝑥𝑖 是固定的或随

3.1 OLS 无偏性

在有限样本的性质下，我们可以说 OLS 估计量是无偏的，这意味着 OLS 估

机样本）中获得的 OLS 估计量将等于确切的总体参数的真实值，因为由于存在

𝐸(𝛽̂ ) = 𝐸[(𝑋′𝑋)−1 𝑋′𝑌]

= 𝐸[(𝑋′𝑋)−1 𝑋′(𝛽𝑋 + 𝜀)]

3.2 OLS 一致性

在渐近性质下，我们可以认为 OLS 估计量是一致的，这意味着随着样本量变

∑𝑛𝑖=1(𝑋𝑖 − 𝑥̅ )𝑌𝑖 ∑𝑛𝑖=1(𝑋𝑖 − 𝑥̅ )𝑢𝑖

plim ∑𝑛𝑖=1(𝑋𝑖 − 𝑥̅ )𝑢𝑖

中后面的第二项就等于 0。这样我们就已经证明，随着样本量变大，OLS 估计量

3.3 OLS 有效性

四、 使用 Stata 14.2 的蒙特卡罗模拟

变量 y 的实现为 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 ，可以知道真实参数值𝛽0 = 3和𝛽1 = 3。步

骤 (4) 的命令将对 y 和 x 进行线性回归并且估计𝛽̂0 和𝛽̂1 的估计量。程序里的最

后两行指定了在此蒙特卡罗模拟中检验的值：𝛽̂0 和𝛽̂1 ，它们将分别以名称 b0 和

b1。程序的定义或手续可以直接输入到命令窗口或作为 Do-file 的一部分。

4.1 OLS 无偏性模拟

为了实验 OLS 的无遍性，我们需要从解释变量的估计系数 (𝛽̂1 ) 和真实值

过 Stata 的运行代码进行 OLS 无遍性的蒙特卡洛模拟，该模拟显示了当误差项

(ε) 和解释变量 (x) 服从正态分布且 x 和 ε 相互独立的时候 OLS 斜率系数是无

代码进行实验，可以模拟获得固定参数 (𝛽̂0)和 beta (𝛽̂1 ) 的估计量为：

1,000 3.000282 .1032391 2.647476 3.333216

上面的表 4-1 表示，固定参数(𝛽̂0)和解释变量 x 系数(𝛽̂1 )的均值都几乎接近

3.000，表明𝛽̂0 和𝛽̂1 的估计量等于真实值𝛽0 和 𝛽1 ，所以从该模拟的结果可以得出

结论 OLS 是无偏的。另外，我们也可以通过 histogram 命令来看 beta (𝛽̂1 )的分布：

2.6 2.8 3 3.2 3.4

图 4-1 beta 估计量的直方图

图 4-1 表示，beta (𝛽̂1 )的分布集中在 3，这也表明𝛽̂1 的估计量等于真实值𝛽1 为

3，说明 OLS 是无偏的。

4.2 OLS 正态性模拟

正态性是估计回归的重要特征之一。为了实验 OLS 的正态性我们可以在 Stata

2.6 2.8 3 3.2 3.4

对于样本量 N=1000 进行蒙特卡洛模拟之后，我们详细地检查 beta (𝛽̂1 )的直

方图。图 4-2 显示 beta (𝛽̂1 )分布有正常形状，而且直方图是对称的，也可以知道

beta (𝛽̂1 )的平均值等于 3.001。

Variable Obs Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2

beta 1,000 0.5210 0.9156 0.43 0.8080

上面是 OLS 模型残差分布的图形。残差是实际值和预测值之间的差异。预测

4.3 OLS 一致性模拟

实验最小二乘法 (OLS) 的一致性属性可以通过上面使用的 Stata 代码进行模

的数。利用 Stata 可以获得下面不同样本量 beta (𝛽̂1 )的模拟结果:

图 4-2 样本量 N=1000 图 4-3 样本量 N=3000 图 4-4 样本量 N=5000

2.94 2.96 2.98 3 3.02 3.04 2.96 2.98 3 3.02 3.04

图 4-5 样本量 N=8000 图 4-6 样本量 N=10000

从上面的图 4-2 到图 4-6 可以知道，随着样本量 N 的增加，集中在真实值𝛽1 =3

x 的系数𝛽̂1 会等于𝛽1 ，或者|𝛽̂1 − 𝛽1|=0，说明 OLS 的估计是一致的。

表 4-3 表示，在不同样本量的情况下本次回归结果的𝛽̂1 估计量都与真实值 3

4.4 违反 OLS 性质的假设

4.4.1 Ommited Variable Bias (遗漏变量偏差)

4.4.2 Functional Form Misspecification (模型函数设定错误)

95% CI Fitted values

4.4.3 Autocorrelation and Lagged Dependent Variables (自相关与滞后因变量)

Variable Obs Mean Std. Dev. Min Max

OLS 估,计量的期望值 E[𝛽̂1 ]将等于真实值参数β。。无偏性并不意味着我们从观

题目：基于 Monte Carlo Simulation 估计

四、使用 Stata 14.2 的蒙特卡罗模拟

测数据(随机样本)中获得的 OLS 估计量将等于确切的总体参数的真实值,因为