第3章平稳时间序列分析

一阶差分： yt =yt  yt 1
p 阶差分：
 p yt  ( p1 yt )   p1 yt   p1 yt 1 , p  1, 2,
显然有
p
 p yt   ( 1)i C ip yt  i , p  1, 2,
i 0
k步差分：
 k yt  yt  yt  k , k  1, 2,
差分具有如下基本性质：
（1）  (C )  0 （C为常数）；
（2） (axt  byt )  axt  byt （a，b为常数）；
（3）  ( xt yt )  ( xt ) yt  ( yt ) xt 1
 yt  ( yt ) x t  1  ( x t ) y t  1
（4）   
 xt  xt xt 1
☆ 齐次线性差分方程
1. 齐次线性差分方程的定义：
yt  a1 yt 1  a2 yt  2   a p yt  p  0 （1）
称为 p 阶常系数线性齐次差分方程.
2. 齐次线性差分方程的通解
（1）特征方程：称方程
 p  a1 p1  a2 p 2   ap  0
为齐次线性差分方程（1）的特征方程。特征方
程的根称为特征根，记作 1 , 2 , ,  p 。
（2）齐次线性差分方程的通解：
1）特征方程有不相等实数根场合
yt  c11t  c22t   c p  pt
2）特征方程有 d 重实根场合
yt  (c1  c2 t   cd t d 1 )1t  cd 1dt 1   c p  pt
3）特征方程有复数根场合
yt  r t (c1 cos  t  c2 sin  t )  c33t  c44t   c p  pt
其中，
a
r  a  b ,   arccos
2 2
r
☆ 非齐次线性差分方程
1. 非齐次线性差分方程的定义
yt  a1 yt 1  a2 yt 2   a p yt  p  ut （2）
称为 p 阶常系数线性非齐次差分方程.
2. 非齐次线性差分方程的通解
非齐次线性差分方程的通解
= 对应的齐次线性差分方程的通解
+非齐次线性差分方程本身的一个特解
3. 线性非齐次差分方程的特解
★ 一阶线性非齐次差分方程的特解
yt   yt  1   t
1）有初值 y1 的递归解法

y0   y1   0
y1   y0  1
y2   y1   2
yt   yt 1  t
得到
yt   t 1 y1   t0   t 11    t 1   t
t
  t 1 y1    t  j j
j0
给出初值y-1以及 0 , 1 , ,  t 的值，即可得到yt 。
若从 t 期开始迭代，
yt   yt  1   t
y t  1   yt   t  1
yt  2   yt  1   t  2
.........
yt  j   yt  j 1  t  j
于是
yt  j   j 1 yt 1   jt   j 1t 1  ...   jt  j 1  t  j
 t 对 yt  j 的影响（动态乘子）为
yt  j
j
t
★ p 阶线性非齐次差分方程的特解
yt  1 yt 1  2 yt 2    p yt  p  t
将上述方程改写为
 yt  1 yt 1  2 yt  2    p yt  p   t

 yt  1  yt  1

 yt  2  yt  2


 yt  p  1  yt  p  1
写成矩阵形式
 yt  1 2 3  p 1  p   yt 1  t 
 y   y   
 t 1   1 0 0 0 0   t 2   0 
 yt  2    0 1 0 0 0   yt  3    0 
      
      
 yt  p  1   0 0 0 0   yt  p   0 
   1
记
 yt  1 2 3  p 1  p   t 
 y    0
 t  1   1 0 0 0 0  
 t   yt  2  F   0 1 0 0 0 , Vt   0 
     
     
 yt  p  1  0 0 0 0   0 
   1
则原p阶差分方程变为一阶向量差分方程
 t  F  t 1  Vt
参照一阶向量差分方程的递归解法有
t  F t 11  F tV0  F t 1V1  F t 2V2   FVt 1  Vt
 yt   y1  0  1   t 1   t 

 y  y  0 0  0  0
 t 1   2         
 y t  2   F t  1  y 3   F t  0 F  0 
t 1
F 0  0 
           
           
 yt  p  1   y p   0   0   0   0 
   
上述系统的第一个方程代表了yt 的值. 令

F t  f ij( t )  p p
则
yt  f11( t 1) y1  f12( t 1) y2   f1(pt 1) y p
 f11( t )0  f11( t 1)1   f11(1) t 1   t
给出初值y-1， y-2，…，y-p以及 0 , 1 , ,  t 的值，

即可得到yt。
定理：矩阵 F 的特征根满足的特征方程为
 E  F   p  1 p1  2 p 2    p1   p  0

★ 时间序列模型与线性差分方程
线性差分方程在时间序列分析中有重要的应用。
常用的时间序列模型和某些模型自协方差函数和自
相关函数都可视为线性差分方程，我们可以利用差
分方程来研究时间序列模型及其自协方差函数和自
相关函数的性质。
（一）定义
设 yt 是一时间序列，定义算子 B
Byt  yt 1
B( Byt )  B( yt 1 )  yt  2
记为 B2 yt  yt  2 。一般地，对任意整数 k，定义
B k yt  yt  k
（二）延迟算子的性质
1. B 0  1, Bc  c
2. B(c  xt )  c  B( xt )  c  xt 1 , c为任意常数
3. B( xt  yt )  xt 1  yt 1
4. ( Bm  Bn ) xt  Bm xt  Bn xt  xt m  xt n
5. Bm Bn xt  Bn Bm xt  Bm n xt  xt m n
n
6. (1  B)   ( 1)n Cni B i
n
i 0
7.   B  [  B  xt ]    B  [  B  xt ]
其中，   z  ,   z  为多项式。
8. 若c为常数，则   B  c  c  1
9. 对于有界序列 { xt } ，若算子   B  , ( B) 满足，
  B  ( B ) xt  xt
则称算子   B  是算子  ( B ) 的逆算子，记为

1
  B   ( ( B)) 
1
 ( B)
若   1 ，则
(1   B )1  1   B   2 B 2 
（三）用延迟算子表示差分运算
p 阶差分
p
 p xt  (1  B ) p xt   ( 1) p C ip xt  i
i 0
k 步差分
 k xt  xt  xt k  (1  Bk ) xt
（四）利用延迟算子解差分方程
1、一阶差分方程
yt   yt  1   t
(1   B ) yt   t
yt  (1   B)1t
 t  t 1   2t  2   3t  3 

2、二阶差分方程
yt  1 yt 1  2 yt  2  t
(1  1 B  2 B2 ) yt  t
若有 (1  1 B  2 B 2 )   1  1 B  1  2 B 
yt  (1  1 B  2 B 2 )1  t
1
 t
 1  1 B 1  2 B 
若 1  2 ，则有
1 c1 c2
[  ]
1  1 B 1  2 B  1  1 B 1  2 B
1 2
其中 c1  , c2  
1  2 1  2
1
则 yt  t
 1  1 B  1  2 B 
c1 c2
[  ] t
1  1 B 1  2 B
 [c1  c2 ] t  [c11  c22 ] t 1  [c112  c222 ] t  2 
在本节，我们将如下讨论三种形式的时间
序列模型：
AR模型（Auto Regression Model）
MA模型（Moving Average Model）
ARMA模型（Auto Regression
Moving Average model）
一、AR模型(Auto Regression Model)
（一）AR模型定义
具有如下结构的模型称为 p 阶自回归模型，
简记为 AR( p ).
 x t   0   1 x t 1   2 x t  2    p xt  p   t

 p  0

 E ( t )  0，Var ( t )    , E ( t  s )  0, s  t
2
 E ( x  )  0, k  1
 t k t
特别当  0  0 时，称 AR( p ) 为中心化模型。

AR(p)序列中心化变换
对于非中心化序列
xt  0  1 xt 1  2 xt 2    p xt  p   t
作变换 0

1  1  p
yt  x t  
则原序列即化为中心化序列
yt  1 yt 1  2 yt  2    p yt  p   t
注意到：
cov( xt , xs )  cov( yt , ys )
x x   y y
t s t s
所以，以后我们重点讨论中心化时间序列。
AR模型的算子表示：
令 ( B )  1  1 B   2 B 2    pB p
则 AR( p ) 模型可表示为
( B ) x t   t
（二）AR模型平稳性判别
1. 判别原因：
要拟合一个平稳序列，用来拟合的模型显然
也应该是平稳的。 AR 模型是常用的平稳序列的
拟合模型之一，但并非所有的 AR 模型都是平稳
的，而非平稳的AR模型在实际应用中是没有意义
的。
例如：AR(1)过程：
xt   1 xt 1   t （*）
用滞后算子可表示为：
(1  1 B ) xt   t
则 xt  (1  1 B)1  t   t  1 t 1  12 t  2 
是差分方程（*）的一个特解。

当 1  1 时，级数   j
1 收敛，表明序列
j0
xt   t  1 t 1  12 t  2 
是平稳序列。
实际上，当 1  1 时，
Ext  E( t  1 t 1  12 t  2  )0
 2
D( xt )  D( t  1 t 1  12 t  2  )  
1  12
cov( xt , xt  k )
 cov( t  1 t 1   1k t  k  ,  t  k  1 t  k 1  )
 2
 1k 2  1k  2 2  1k  4 2   1k 
1  12
例3.1:考察如下四个模型的平稳性
(1) xt  0.8 xt 1   t
(2) xt  1.1 xt 1   t
(3) xt  xt 1  0.5 xt  2   t
(4) xt  xt 1  0.5 xt 1   t
（1）生成平稳序列 xt = 0.8xt-1+ ut, ut  IID(0, 1)
的 Eviews程序:
6
smpl @first @last
x=0.8x(-1)+u
series u=nrnd 4
smpl @first @first
series x=0 2
smpl @first+1 @last
series x=0.8*x(-1)+u 0
-2
-4
10 20 30 40 50 60 70 80 90 100
X
（2）生成平稳序列 xt = xt-1-0.5xt-2+ ut, ut  IID(0, 1)
的 Eviews程序:
4
x=x(-1)-0.5x(-2)+u
smpl 1 100 3
genr u=nrnd 2
smpl 1 2 1
genr x=0
0
smpl 2 100
genr x=x(-1)-0.5*x(-2)+u -1
-2
-3
-4
10 20 30 40 50 60 70 80 90 100
X
（3）生成非平稳序列 xt = -1.1xt-1+ ut, ut  IID(0, 1) 的
Eviews程序:
20000
15000
x=-1.1x(-1)+u
smpl @first @last 10000
series u=nrnd 5000
smpl @first @first 0
series x=0 -5000
smpl @first+1 @last -10000
series x=-1.1*x(-1)+u -15000
-20000
10 20 30 40 50 60 70 80 90 100
X
（4）生成非平稳序列 xt = xt-1+0.5xt-2+ ut, ut  IID(0, 1)
的 Eviews程序:
1.0E+12
x=x(-1)+0.5x(-2)+u
0.0E+00
smpl @first @last
series u=nrnd -1.0E+12
smpl @first 2 -2.0E+12

series x=0
-3.0E+12
smpl @first+2 @last
series x=x(-1)+0.5*x(-2)+u -4.0E+12
-5.0E+12
10 20 30 40 50 60 70 80 90 100
从时序图上可以看出，（1）（3）模型平稳，
（2）（4）模型非平稳。
2. AR模型平稳性常用判别方法
p 阶自回归模型：
xt  1 xt 1  2 xt  2    p xt  p   t
的特征方程为：
 p   1 p  1   2  p  2  p  0
算子方程为：
1  1 B   2 B 2    pB p  0
结论： AR模型特征方程的根与算子方程的根
互为倒数。
(1) AR模型平稳性的特征根判别定理：
定理1 AR(p)模型平稳的充要条件是它的p个
特征根都在单位圆内。
我们以 AR(1)模型作简单说明：
例如，对于中心化AR(1)模型
xt   1 xt 1   t
将上述模型视作一阶差分方程，其特解为
xt   t  1 t 1  12 t  2 
其对应的齐次差分方程的通解为
xt  c1t
则AR(1)过程的通解为
xt  c1t   t  1 t 1  12 t  2 
要使中心化AR(1)模型平稳，即要求对任意的
常数 c，有
lim E ( xt )  lim c1t =0
t  t 
上式成立的等价条件是：
1  1
而  1 即为AR(1)模型的特征根。
定理2 AR(p)模型平稳的充要条件是该模型
的算子方程的根都在单位圆外。
【例】下面的AR(2)是否满足平稳条件？
xt  0.6 xt 1  0.08 xt  2   t
【解】特征方程为：
 2  0.6  0.08  0
其特征根分别为0.2和0.4，都在单位圆内，所以
满足平稳条件。
【例】下面的AR(2)是否满足平稳条件？
xt  xt 1 +0.5 xt  2   t
【解】特征方程为：
 2    0.5  0
1 1 2 1 3 1 1 2 1 3
1    ， 2   
2 2 2 2 2 2
因为 1  1 ，所以该模型非平稳。
(2) AR模型平稳性的平稳域判别方法：
AR(p)模型平稳域为：
{1 ,  2 , ,  p 特征方程的根都在单位圆内}
{1 ,  2 , ,  p 算子方程的根都在单位圆外}
【例】 AR(1)模型平稳域
xt   1 xt 1   t
特征根为    1 ，平稳条件   1  1
平稳域为： 1 ; 1  1
例如，xt  0.8 xt 1   t 是平稳的。而
xt  1.1 xt 1   t 是非平稳的。
【例】 AR(2)模型平稳域
xt   1 xt 1   2 xt  2   t
特征根为
1  12  4 2 1  12  4 2
1  ， 2 
2 2
因为 1  2  1 , 12   2
由平稳性条件 1  1, 2  1 可得
AR(2)模型平稳域为：
{ 1 ,  2  2  1，且  2   1  1}
 1  1,  2  1  { 1 ,  2  2  1，且  2   1  1}
证明：若有  1  1,  2  1 ，
注意到：  2   12
 2  1   12  1  2  1  (1  1 )(1  2 )
 2  1   12  1  2  1  (1  1 )(1  2 )
显然有
 2  1

 1  1,  2  1   2  1  1
    1
 2 1
反之，若条件
 2  1

 2  1  1
    1
 2 1
成立，因为  2  12  1 ，则 1  1, 2  1 两
个式子中至少有一个成立，
假设 1  1 ，即 1  1  1 ，由
 2  1  1  (1  1 )(1  2 )  1
 (1  1 )(1  2 )  0
 1  2  0  2  1
再由
 2  1  1  (1  1 )(1  2 )  1
 (1  1 )(1  2 )  0
 1  2  0  2  1
于是可得
2  1
同样地，若 2  1 ，可得 1  1 必然成立。所以

 2  1

 2  1  1   1  1,  2  1
    1
 2 1
平稳域是一个三角形区域。见下图阴影部分。
12 + 42 >0
12 + 42 = 0
12 + 42 < 0
平稳AR(2) 过程1, 2取值域（阴影部分）
【例】AR(2)模型：xt  xt 1 +0.5 xt  2   t
1 1 2 1 3
从特征根看 1    1
2 2 2
所以该模型非平稳。
从平稳域看  2  1  1.5  1 ，所以该模型非平稳。

(3) 高阶AR(p)模型平稳性的判别方法：
对高阶自回模型AR(p)来说，多数情况下没有必
要直接计算其特征方程的特征根，但有一些有用的
规则可用来检验高阶自回归模型的稳定性：
（1）AR(p)模型稳定的必要条件是：
1  2  p  1
（2）AR(p) 模型稳定的充分条件是：
1   2   p  1
（3）如果 1  2    p  1 ，则至少有一个
特征根等于1， AR(p) 模型不平稳。
例如，
xt  0.6 xt 1  0.2 xt  2  0.1 xt  3   t
1   2   3  0.9  1
模型平稳。
xt  0.6 xt 1  0.4 xt  2  0.1 xt  3   t
1   2   3  1.1  1
模型非平稳。
问题： xt  0.6 xt 1  0.4 xt  2  0.1 xt  3   t 平稳性？

（三）平稳AR模型的统计性质
1、均值
如果AR(p)模型满足平稳性条件，则有
Ext  E(0  1 xt 1    p xt  p   t )
根据平稳序列均值为常数，且 { t } 为白噪声序
列，有
Ext   , E ( t )  0 , t  T
推导出 0

1  1  p
例如，对于模型 xt  0.6 xt 1   t ，则
E ( xt )  0
对于模型 xt  1  0.6 xt 1   t ，则
1
E ( xt )   2.5
1  0.6
对于模型 xt  1  0.6 xt 1  0.3 xt  2   t ，则
1
E ( xt )   10
1  0.6  0.3
2、方差
（1）Green函数定义
将平稳的AR(p)模型表示成如下的传递形式
t p
ki p 
xt    t   ki (i B) j  t
( B) i 1 1  i B i 1 j  0
 p  
  ki i j t  j   G j t  j   G j B j t G( B ) t
j  0 i 1 j 0 j 0
其中系数 {G j , j  1, 2, } 称为Green函数
AR(p)模型: ( B ) xt   t
 ( B )G ( B ) t   t
传递形式: xt  G ( B ) t
 ( B )G ( B )  1
利用待定系数法，即可得到Green函数。
(1  1 B   2 B 2    p B p )(G0  G1 B  G2 B 2  )1
G0  1
G1  1G0  0
确定初值
G2  1G1   2G0  0
G p1  1G p 2    p1G0  0

k p Gk  1Gk 1    pGk  p  0 差分方程
【例】求下列模型的Green函数
（1） xt  0.6 xt 1   t
（2） xt  0.6 xt 1  0.08 xt  2   t
【解】（1）将模型表示为算子形式
(1  0.6 B ) xt   t
则 xt  (1  0.6B)1  t  (1  0.6B  0.62 B2  ) t


  0.6 j  t  j
j0
所以， Green函数为：
G j  0.6 j , j  0,1, 2,
（2）将模型表示为算子形式
(1  0.6B  0.08B2 ) xt   t
(1  0.2 B )(1  0.4 B ) xt   t
1
xt  t
(1  0.2 B)(1  0.4 B)
 2 1 
   t
 1  0.4 B 1  0.2 B 
 2(1  0.4 B  0.42 B 2  ) t
 (1  0.2 B  0.22 B 2  ) t
  1  0.6B  (2  0.42  0.22 ) B 2   t
于是： G j  2  0.4 j  0.2 j , j  0,1, 2,

（2）平稳的AR(p)模型的方差
由平稳AR模型的传递形式

xt   G j  t  j
j 0
两边求方差得

Var ( xt )   G 2j  2 , G j为Green函数
j 0
Gk  1Gk 1   k  0
p 
 Gk   c j  , (  j  1)
k
j
  G 2j  
j 1 j0
【例】求平稳AR(1) xt  1 xt 1   t 模型的方差
【解】平稳AR(1)模型的传递形式为
t  
xt    (1 B )i  t   1i  t  i
1  1 B i  0 i 0
Green函数为 G j  1 j , j  0,1,
平稳AR(1)模型的方差为
 
 2
Var ( xt )   G 2j Var ( t )   12 j 2  
j 0 j 0 1   2
1
也可用以下方法计算
Var ( xt )  Var (1 xt 1   t )
 12Var ( xt 1 )  Var ( t )  21 cov( xt 1 ,  t )
因为，Var ( xt )  Var ( xt 1 ), cov( xt 1 ,  t )  0 ，所以

Var ( t )  2
Var ( xt )  
1  1
2
1  12
例如，对于模型： xt  0.6 xt 1   t , Var ( t )  10

Var ( t ) 10
Var ( xt )    15.625
1  1
2
1  0.6 2
3、 AR(p)模型自协方差函数
因为 E ( t xt )  E[ t (1 xt 1   2 xt  2    p xt  p   t )]   2 ,
E ( t xt  k )  0, k  1
又 E[( xt  1 xt 1  2 xt 2    p xt  p ) xt  k ]  E( t xt  k )
k  0:  0  1 1   2 2    p p   2
k  1:  1  1 0  2 1    p p1  0
k  2:  2  1 1  2 0    p p2  0 Yule-Walker
......... ......... ......... ......... ......... Equation
k  p:  p  1 p1  2 p2    p 0  0
k  1:  k  1 k 1  2 k  2    p k  p  0 差分方程

矩阵形式为：
 1   0 1  p 1    1   0 
      
 2    1 0  p 2    2   0 
       
      
  p    p 1  p  2 0    p   0 

 1   0 1  p 1    1 
    
  2    1 0  p 2    2 
     
    
  p    p 1  p  2  0    p 
【例】求平稳AR(1) xt  1 xt 1   t 模型的自
协方差函数。
差分方程：  k  1 k 1  0
递推公式：  k  1 k 1  1  0
k
平稳AR(1)模型的方差为：
 2
0 
1  12
自协方差函数为：
 2
 k  1k  2 , k  1
1  1
【例】求平稳AR(2)： xt  1 xt 1   2 xt  2   t
模型的协方差。
 0  E  xt   E ( xt xt )  E[(1 xt 1   2 xt  2   t ) xt ]
2
 1 E  xt 1 xt    2 E  x t  2 x t   E   t x t 
 1 1  2 2   2
其中 E   t xt   E  t (1 xt 1   2 xt  2   t )   2
差分方程：  k  1 k 1   2 k  2  0
递推公式：  k  1 k 1   2 k  2
k  1:  1  1 0   2 1
k  2:  2  1 1   2 0
求解方程组：
 0  1 1  2 2   2

 1  1 0   2 1
      
 2 1 1 2 0
得到
0 
 1   2   2
 2
1    (1   2 ) 2
  2

1 
1 0
1 
1  2
所以，平稳AR(2)模型的协方差函数递推公式为
 1  2
  
 0 (1   )(1     )(1     ) 
2
 2 1 2 1 2
 1 0
 1 
 1  2
       ，k  2
1 k 1 2 k 2
 k

4、自相关系数
（1）自相关系数的定义：
k
k  特别 0  1
0
（2）平稳AR(P)模型的自相关系数递推公式：
k  1 k 1  2 k  2    p k  p , k 1 差分方程
k  1: 1  1  2 1    p  p1
k  2: 2  1 1  2    p  p 2 Yule-Walker
......... ......... ......... ......... ......... Equation
k  p:  p  1  p1  2  p 2    p
矩阵形式：
 1   1 1  p 1    1 
    
  2    1 1  p 2    2  Yule-Walker
     Equation
    
  p    p 1  p 2 1    p 
（3）常用AR模型自相关系数递推公式
AR(1)模型
k  1k , k0
AR(2)模型
1, k0

 1
k   k 1
1  2
     k2
 1 k 1 2 k 2
说明：在AR(1)模型中，即使 xt  2 没有直接
出现在模型中， xt  2 和 x t 也是相关的。因为
xt 1   1 xt  2   t 1
所以， xt  2 是通过 xt 1 与 x t 相关的，这种间接

相关出现在任何AR模型中。
xt  2 与 x t 的自相关系数  2 等于 xt  2 与 xt 1
的自相关系数  1 乘以 xt 1与 x t 的自相关系数  1。

即
2  ( 1 )2
例如，AR(1)模型 xt  0.8 xt 1   t 的自相关系数为
k  0.8k , k  0
【例】求 AR (2) 模型： xt  0.9 xt 1  0.2 xt  2   t

的自相关系数。
【解】AR(2) 模型的自相关系数满足的Yule-
Walker方程为：
 k  0.9  k 1  0.2  k  2  0
此差分方程的通解为：
k  C1 0.5k  C2 0.4k （ C1 , C 2 为任意常数）
根据初值：
  0  1,

 1 0.9 3
 1  1    1  0.2  4
 2
7 5
可求出， C1  , C 2  
2 2
于是该AR(2)模型的自相关系数为：
7 5 k
 k   0.5  0.4 ,
k
k0
2 2
5、平稳AR(p)模型自相关系数的性质
（1）拖尾性
p
 k   ci ik , c1 , c2 , , c p不能恒等于零
i 1
（2）呈负指数衰减
p
 k   ci ik  0
i 1
拖尾性说明 xt 之前的每一个序列值 xt 1 , xt  2 ,
都会对 xt 构成影响，但因为自相关系数呈负指数
衰减，所以，间隔较远的序列值对现时值的影响很
小，具有所谓的“短期相关性”。
三种平稳模型：
模型1： xt  xt 1  0.24 xt  2   t
6
x=x(-1)-0.24*x(-2)+u
4
-2
-4
-6
-8
50 100 150 200 250 300
1  0.4, 2  0.6
k  c1 0.4k  c2 0.6k
模型2： yt  1.2 yt 1  0.36 yt  2   t
8
x=1.2*x(-1)-0.36*x(-2)+u
-4
-8
-12
50 100 150 200 250 300
1  2  0.6
k  c1 0.6k  c2k 0.6k
模型3：zt  zt 1  0.5 zt  2   t
4
z=z(-1)-0.5*z(-2)
3
2
1
0
-1
-2
-3
-4
-5
50 100 150 200 250 300
1 i 1 i
1  , 2 
2 2
k  r k (c1 cos(k )  c2 sin(k ))
2 k k k 
k  ( )  c1 cos( )  c2 sin( ) 
2  4 4 
6、偏自相关函数
自相关函数给出了Xt 与 Xt-k 的总体相关性，

但总体相关性可能掩盖了变量间完全不同的相关
关系。
例如，在 AR(1) 中，Xt 与 Xt-2 间有相关性

可能主要是由于它们各自与 Xt-1 间的相关性带
来的。即自相关函数中包含了这种所有的“间接”
相关。
与之相反，Xt与Xt-k间的偏自相关函数
(partial autocorrelation，简记为PACF)则是消除
了中间变量Xt-1，…，Xt-k+1 带来的间接相关后的
直接相关性，它是在已知序列值Xt-1，…，Xt-k+1
的条件下，Xt与Xt-k间关系的度量。
定义：对于平稳 AR(p) 序列，所谓滞后 k 偏自
相关系数就是指在给定中间k-1个随机变量
xt 1 , xt  2 , , xt  k  1
的条件下，或者说，在剔除了中间k-1个随机变量的
干扰之后， xt  k 对 x t 影响的相关度量。用数学语言
描述就是：
ˆ )( x  Ex
E[( xt  Ex ˆ
t  k )]
 x ,x x  t t k
t t k t 1 , , x t  k 1
E[( x  Ex ˆ )2
t k t k
其中： ˆ  E( x x ,
Ex , xt  k 1 )
t t t 1
ˆ
Ex t  k  E ( xt  k xt 1 , , xt  k  1 )
7、偏自相关系数的计算
（1）直接利用回归方法计算
滞后 k 偏自相关系数实际上就等于k阶自回归
模型第个 k 回归系数的值。
首先将序列中心化，作如下形式的回归
xt  11 xt 1   t
xt   21 xt 1   22 xt  2   t
xt   k 1 x t 1   k 2 xt  2    kk xt  k   t
注意到：
xt  11 xt 1   t
xt   21 xt 1   22 xt  2   t
xt   k 1 xt 1    k ( k 1) xt  ( k 1)   kk xt  k   t
所以，  kk 即为剔除了中间k-1个随机变量的干扰
之后，xt  k 与 xt 的相关系数，即 xt  k 与 xt 的偏
自相关系数。
（2）利用Yule-Walker方程计算
利用回归方程
xt   k 1 xt 1   k 2 xt  2    kk xt  k   t
可得如下Yule-Walker方程：
 1   k 1  0   k 2 1    kk  k 1
         
 2 k1 1 k2 0 kk k  2


  k   k 1  k 1   k 2  k  2    kk  0
 1    0 1  k 1    k 1 
  
  2    1 0  k  2    k 2 
    
    
  k    k 1 k 2  0    kk 
当 k  1 时， Yule-Walker方程为
11  1
 1   21  0   22 1  1    0 1    21 
  
  2   21 1   22  0   2   1  0    22 
0 1 1 1
1 2 1  2  2  ( 1 )2
 22   
0 1 1 1 1  ( 1 )2
1 0 1 1
 1   31  0   32 1   33  2  1    0 1  2    31 
     
  2   31 1   32  0   33 1   2    1 0 1    32 
             1  0    33 
 3 31 2 32 1 33 0  3  2
0 1 1
1 0 2
2 1 3
 33 
0 1 2
1 0 1
2 1 0
一般地：利用Cramer法则求解
Yule-Walker方程可得：
Dk
 kk 
D
1 1 1
1 1  k 1
1 1 2
1 1 k 2 Dk 
D ,
 k 1  k  2 k
 k 1 k2 1
T
D 实际上就是向量 ( xt 1 , xt  2 , , xt k ) 的协方
差矩阵的行列式。
（3）利用Levinson递推公式计算
 1
 1   , k 1
 0
 k 1
 kk    k    k 1, j  k  j
 j 1
, k 1
 k  1
  0    k 1, j  j
 j 1
kj  k 1, j  kkk 1,k  j , j  1, 2, , k  1

或写成
 1
 1   , k 1
 0
 k 1
 kk    k    k 1, j  k  j
 j 1
, k 1
 k  1
 1    k 1, j  j
 j 1
其中
kj  k 1, j  kkk 1,k  j , j  1, 2, ,k 1
8、平稳AR(p)模型偏自相关系数的截尾性
AR(p)模型偏自相关系数 p 阶截尾，这是因为
对于AR(p)模型:
xt  0  1 xt 1  2 xt 2    p xt  p   t
xt  k ( k  p ) 与 xt 之间不存在直接相关。所以
 kk  0 , k  p
平稳AR(p)模型偏自相关系数的截尾性是AR
模型所具有的一个重要特性，它可以帮助我们识
别AR模型。
AR(p)模型偏自相关系数的截尾性的证明：
【证】对于平稳的AR(p)模型：
xt  1 xt 1  2 xt  2    p xt  p   t
有如下的Yule-Walker方程：
 j  1  j 1  2  j 2    p  j p , j  1, 2, ,k
 1   1 1 2 ...  p 1   1 
    1 ...  p  2 
  
 2    1 1  2 
即  ...   ... ... ... ... ...   ... 
     
  k    k 1 k 2 k 3 ...  p  k 
k p
 p 
记上式左边的向量为  ，右边系数矩阵中的列
向量为  i ( i  1, 2, , p) ，即
 1    i 1 
   
 2  
 ,  i   i  2  ( i  1, 2, , p)
   
   
 k   i k 
则有：   11  22    p p
所以，向量  可以被向量组 1 , 2 , ,  p 线性表示。

当 k  p 时有，
1 1  p 1 1
1 1  p 2 2
Dk 
... ... ... ... ... ...
 k 1  k  2  p k k
上述行列式 Dk 的最后一列正好是前 p 个列向

量的线性组合，于是有Dk=0。
所以，当 k  p 时有，
Dk
 kk  0
D
例如，对于AR(2)模型
xt   1 xt 1   2 xt  2   t
有如下的Yule-Walker方程：
 k   1  k 1   2  k  2 , k 1
1
当 k  1 时， 11  1  1  
2
当 k  2 时， Yule-Walker方程为：
0 1
 1   1  0   2 1 1  2  2  ( 1 )2
  22    2
  2   1 1   2  0 0 1 1  ( 1 ) 2
1 0
 1   1  0   2 1  1   0   1 
      
  2   1 1   2  0   2    1  1    2   0 
            
 3 1 2 2 1  3  2  1
0 1 1
1 0 2
2 1 3
 33  0
0 1 2
1 0 1
2 1 0
 1   1  0   2 1  1   0   1 
            
 2   0 

1 1 2 0
 2
 1  1
 2 
 3   
1 2   
2 1  3   2   1 
  4  1  3   2  2      
 4   3   2 
0 1 2 1
1 0 1 2
可以证明：
2 1 0 3
3 2 1 4  kk  0, k  3
 44  0
0 1 2 3
1 0 1 2
2 1 0 1
3 2 1 0
9、常用AR模型偏自相关系数公式
AR(1)模型： xt  1 xt 1   t
11  1  1 ,
 kk  0,(k  2)
AR(2)模型： xt  1 xt 1   2 xt  2   t
1
11  1  ,
1  2
 2  ( 1 ) 2
 22    2 ,(  2  1 1   2  0 )
1  ( 1 ) 2
 kk  0,( k  3)
二、MA模型（Moving Average Model）
（一）MA模型的定义
具有如下结构的模型称为q 阶移动平均模型，
简记为MA(q).
 xt     t  1 t 1   2 t  2    q t  q

 q  0

 E ( t )  0，Var (  t )    , E ( t  s )  0, s  t
2
特别当   0 时，称为中心化 MA(q)模型.

利用延迟算子，中心化MA(q)模型又可以简记为:
xt  ( B ) t
其中， ( B ) 是 q 阶移动平均系数多项式:
( B )  1  1 B   2 B 2   q Bq
为了以后识别一个模型是否是移动平均模型
MA(q)，下面讨论MA模型的统计性质.
（二）MA模型的统计性质
（1）常数均值
（   t  1 t 1   2 t  2 
Ext  E   q t  q）

（2）常数方差
Var ( xt )  Var (    t  1 t 1   2 t  2    q t  q )

 (1  12    q2 ) 2
例如，MA(2)模型：
xt  1   t  0.6 t 1  0.3 t  2
Ext  1
Var ( xt )  (1  0.62  0.32 )Var ( t )
 1.45 2
（3）MA模型的自协方差函数
(1  12    q2 ) 2 , k0


 k  (  k  1 k 1   2 k  2    q  k q ) 2 , 1  k  q

 0, kq
结论：MA(q)自协方差函数只与滞后的阶数
有关，且q 阶截尾。所以MA(q)模型一定是平稳的。
（4）MA模型的自相关函数
1, k0

  k  1 k 1   2 k  2    q  k q
k   , 1 k  q
 1  1    q
2 2
 0, kq

结论：MA(q)自相关系数q 阶截尾
(5) 常用MA模型的自相关系数
MA(1)模型 MA(2)模型
1, k0
1, k0     
  1 2 1 22 , k 1
 1  1  1   2
k   , k 1 k  
 1  1   2
2
, k2
 0 , k2  1  1   2
2 2

 0, k3
1
【例】证明MA模型 xt   t  1 t 1 与 xt   t   t 1
1
有相同的自相关函数。
证明：模型 xt   t  1 t 1 的自相关函数为：
1, k0

 1
k   , k 1
 1  1
2
 0 , k2
1
模型 xt   t   t 1 的自相关函数为：
1
1, k0
 1,
 1 k0
1 
  1
k   , k 1  , k 1
 1  ( 1 )2  1  1
2
 1  0 , k2

0 , k2
可见，上面两个MA(1)模型的自相关函数相同。
【例】证明MA模型 xt   t  1 t 1   2 t  2 与模型
1 1
xt   t   t 1   t  2 有相同的自相关函数。
2 2
证明：模型 xt   t  1 t 1   2 t  2 的自相关函数为：
1, k0 1, k0

    (  )     
 1 21 22 , k 1  1 2 1 22 , k 1
 1  1   2  1  1   2
k   
 (  2 ) , k2  2
 1  12   22 , k2
 1  1   2
2 2
 
 0, k3  0, k3
1 1
模型 xt   t   t 1   t  2 的自相关函数为：
2 2
1 1 1
   ( )
2 2 2 1  1 2
1  
1 2 1 2 1  1   2
2 2
1  ( )  ( )
2 2
1
(  )
2 2
2  
1 2 1 2 1  12   22
1  ( )  ( )
2 2
所以，上面两个MA(2)模型的自相关函数相同。
（三）MA模型的可逆性
由上例可以看出，不同的MA模型可能具有完
全相同的自相关系数，为了保证自相关系数给定一
个自相关函数能够对应惟一的MA模型，这就要求
我们给模型增加约束条件，这个约束条称为件MA
模型的可逆性条件。
1
对于MA(1)模型 xt   t  1 t 1 与 xt   t   t 1
1
模型1: xt   t  1 t 1   t 
xt
1  1 B
  t  (1  1B  1 B  ) xt
2 2
无穷阶
AR模型
xt
1
模型2: xt   t   t 1  t 
1 1
1 B
1
1 1 2
  t  (1  B  2 B  ) xt
1 1
无穷阶
AR模型
当 1  1 时，模型1转化的无穷阶AR模型：
 t  (1  1 B  12 B2  ) xt
是收敛的，而模型2转化的无穷阶AR模型：
1 1 2
 t  (1  B  2 B  ) xt
1 1
是发散的。
（1） MA模型可逆性的定义
定义：若一个MA模型能够表示成为收敛的AR
模型形式，那么该MA模型称为可逆MA模型。
意义：可以保证一个自相关系数列唯一对应一
个可逆MA模型。
（2）MA模型的可逆条件
定理：MA(q)模型可逆的充要条件是：
MA(q)模型的特征方程：
 q   1 q  1   2  q  2   q  0
的根都在单位圆内。
等价条件是算子多项式方程：
1  1 B   2 B 2   q Bq  0
的根都在单位圆外。
类似平稳域的讨论，我们也可以讨论MA模
型的可逆域。
MA(1)模型： xt   t  1 t 1
可逆域：  ; 
1 1  1
MA(2)模型： xt   t  1 t 1   2 t  2
可逆域： 1 , 2  2  1，且 2  1  1

（3）MA模型逆函数的递推公式
若MA模型可逆，则MA模型可表示为：

 t  I ( B ) xt   I j xt  j
j0

则  t   I j xt  j 称为MA模型的可逆表示。
j0
其中系数 { I j , j  1, 2, } 称为逆函数。
由于
 xt  ( B ) t
  ( B ) I ( B ) x t  x t
 t  I ( B ) x t
 ( B ) I ( B )  1
利用待定系数法可得如下逆函数递推公式：
 I0  1
  k , k  q
 j , 其中 k  
 I j    k I j  k，j  1, 2,  0, k  q
 k 1
例如，
(1  1 B   2 B 2    q B q )( I 0  I1 B  I 2 B 2  )1
I0  1
I1  1 I 0  0
确定初值
I 2   1 I1   2 I 0  0
Iq1  1 Iq 2   q1 I0  0
kq I k   1 I k 1   k I0  0 差分方程
(4) MA模型的偏自相关系数
定理：任何一个可逆的MA模型都可以转化
为无穷阶AR模型。
例如：MA(1)： xt   t  1 t 1
若 1  1
 t  (1  1 B)1 xt
这是一个无穷阶自回归模型。
结论：MA模型的偏自相关系数拖尾。
【例】求MA(1)模型 xt   t  1 t 1 的偏自相关
函数。
解 MA(1)模型的自相关函数为
1, k0

 1
k   , k 1
 1  1
2
 0 , k2
则MA(1)模型偏自相关函数为：
1
11  1 
1  12
0 1 1 1
1 2 1 0 ( 1 )2
 22   
0 1 1 1 1  ( 1 )2
1 0 1 1
2
 1 
 2 
 1  1  12
 
 1 
2
1  12  14
1  2 
 1  1 
0 1 1 1 1 1
1 0 2 1 1 0
2 1 3 0 1 0
 33  
0 1 2 1 1 0
1 0 1 1 1 1
2 1 0 0 1 1
3
 1 
 2 
13   13
  1 
1
 
1  212 1  12  14  16
2
 1 
1  2 2 
 1   1 
0 1 2 1 1 1 0 1
1 0 1 2 1 1 1 0
2 1 0 3 0 1 1 0
3 2 1 4 0 0 1 0  14
 44   
0 1 2 3 1 1 0 0 1  3 12  14
1 0 1 2 1 1 1 0
2 1 0 1 0 1 1 1
3 2 1 0 0 0 1 1
14

1  12  14  16  18
1k
类推可以得到，  kk 
1  12  14  16   12 k
可见：MA(1)模型的偏自相关系数拖尾。
总结：自回归与移动平均过程的关系
① 一个平稳的AR(p)过程
(1  1 B   2 B 2    p B p ) xt   t
可以转换为一个无限阶的移动平均过程，
xt  (1  1 B   2 B 2    p B p )1  t
②一个可逆的MA(q)过程
xt  (1  1 B   2 B 2    q B q ) t
可转换成一个无限阶的自回归过程，
(1  1 B   2 B 2    q B q )1 xt   t
③对于AR(p)过程只需考虑平稳性问题，条
件是 B) = 0的根（绝对值）必须大于1。不必
考虑可逆性问题。
④对于MA(q)过程，只需考虑可逆性问题，
条件是 B) = 0的根（绝对值）必须大于1，不必
考虑平稳性问题。
三、ARMA模型
（一）ARMA模型的定义
具有如下结构的模型称为自回归移动平均模型，
简记为ARMA(p, q).
 xt   0  1 xt 1    p xt  p   t  1 t 1    q t  q

 p  0， q  0

 E ( t )  0，Var ( t )    , E ( t  s )  0, s  t
2
 Ex   0, s  t
 s t
特别当  0  0 时，称为中心化 ARMA(p, q)模型。

利用延迟算子，中心化ARMA(p,q)模型又可
以简记为:
( B ) xt  ( B ) t
其中， ( B ) 是 p 阶自回归系数多项式:
( B )  1  1 B   2 B 2    pB p
( B ) 是 q 阶移动平均系数多项式:
( B )  1  1 B   2 B 2   q Bq
注意：这里要求 ( B ) 与 ( B ) 没有公共因子。
（二） ARMA(p,q)平稳条件与可逆条件
ARMA(p,q)模型的平稳条件：
P 阶自回归系数多项式  ( B )  0 的根都在单位
圆外，即ARMA(p,q)模型的平稳性完全由其自回归
部分的平稳性决定。
ARMA(p,q)模型的可逆条件：
q 阶移动平均系数多项式 ( B )  0 的根都在单位
圆外，即 ARMA(p,q) 模型的可逆性完全由其移动平
滑部分的可逆性决定。
（三） ARMA(p,q)传递形式与逆转形式
 传递形式  逆转形式
xt   ( B )( B ) t
1  t   1 ( B )( B ) xt
 
  t   G j t  j  xt   I j xt  j
j 1 j 1
无穷阶AR模型
无穷阶MA模型
格林函数逆函数
G0  1  I0  1
 
 k
 k
Gk    jGk  j   j , k  1  I k    j I k  j   j , k  1
 j 1  j 1
其中
 j , 1  j  p  j , 1  j  q
 j   ,  j  
 0, j p  0, jq
【例】求平稳可逆ARMA(1,1)模型：
(1  1 B ) xt  (1  1 B ) t
的格林函数和逆函数。并求出 E ( xt ),Var ( xt ) 。
【解】将模型转化为无穷阶移动平均模型：
1  1 B
xt  t  (1  1 B)(1  1 B  12 B2  ) t
1  1 B
 1  (1  1 ) B  1 (1  1 ) B 2  12 (1  1 ) B 3    t
  t  (1  1 ) t 1  1 (1  1 ) t 2  12 (1  1 ) t 3 
所以，格林函数为：
G0  1, G j  1j 1 (1  1 ), j 1
类似地，将模型转化为无穷阶自回归模型可得
1  1 B
t  xt  (1  1 B)(1  1 B  1 B 
2 2
) xt
1  1 B
 1  (1  1 )B  1 (1  1 )B 2  12 (1  1 )B 3   xt
 xt  (1  1 ) xt 1  1 (1  1 ) xt  2  12 (1  1 ) xt 3 
所以，逆函数为：
I0  1
I j  1j 1 (1  1 ), j 1
在模型： (1  1 B ) xt  (1  1 B ) t 两边取期望得
E ( xt )   1 E ( x t 1 )  0
 (1  1 ) E ( xt )  0  E ( xt )  0
模型的传递形式为：
xt   t  (1  1 ) t 1  1 (1  1 ) t 2  12 (1  1 ) t 3 
     
Var ( xt )     1   G j      1   [1 (1  1 )] 
2 2 2 j 1 2
 j 1   j 1 
    (   ) 2

    1  (1  1 )  1 2( j 1)
   1 1 2 
2 2 2 1 1
 j 1   1 
【例】设时间序列  xt  来自 ARMA  2,1 过程，
满足：
 1  B  0.5 B 2
 xt  1  0.4B   t
其中 { t } 是白噪声序列，并且 E   t   0,Var   t    。
2
（1）判断模型 ARMA  2,1 的平稳性。
（2）利用递推法计算前三个格林函数 G0 , G1 , G2 。
（四）ARMA(p,q)模型的统计性质
0
均值： E ( xt ) 
1  1  p

方差：  (0)   G 2j
j0

     Gi Gi  k
2
自协方差函数： k
i 0

 (k )
G G
j0
j jk
自相关函数：  k  
 (0) 
 j
G
j0
2
【例】设时间序列 {xt} 来自ARMA(1,1)过程，
满足:
xt  0.5 xt 1   t  0.25 t 1
其中  t ~ WN  0,  2  , 求 E ( xt ),Var ( xt ) ，并证明其自
相关系数为：
 1, k0

 k   0.27 k 1
 0.5  k2
 k 1
【解】显然 E ( xt )  0
 (1  1 )2  2
 0  Var ( xt )   1   
 1  1 
2
 (0.5  0.25)2  2 13 2
 1    
 1  0.5 2
 12
在模型：xt  0.5 xt 1   t  0.25 t 1 两边乘以 xt  k 取期望

E ( xt  0.5 xt 1 ) xt  k   E ( t  0.25 t 1 ) xt  k 
k  1:  1  0.5 0  0.25 E ( xt 1 t 1 )
k  2 :  2  0.5 1  0
k  3 :  3  0.5 2  0
......... ......... ......... ......... .........
k  2:  k  0.5 k 1  0   k  0.5  k 1  0
注意到：
E ( xt 1 t 1 )  E (0.5 xt  2   t 1  0.25 t  2 ) t 1 
 E   t21    2
 1  0.5 0  0.25 E ( xt 1 t 1 )  0.25 2
1 0.25 2 0.25 2 3
 0.5   
0 0 13 2
 13
12
1 3 7
 1   0.5    0.27
0 13 26
 1, k0

于是得到  k   0.27 k 1
0.5  k2
 k 1
ARMA(1, 1)过程是实际中最常用的模型。
4
ARMA
-2
-4
20 40 60 80 100 120 140 160 180 200
ARMA(1,1) 过程
ARMA(1, 1) xt  0.4 xt 1   t  0.6 t 1 序列的生
成程序， t 为标准正态分布白噪声序列。
smpl @first @last
series u=nrnd
smpl @first @first
series x=0
smpl @first+1 @last
series x=0.4*x(-1)+u+0.6*u（-1）
4
3
2
1
0
-1
-2
-3
-4
-5
10 20 30 40 50 60 70 80 90 100
X
（五）平稳可逆ARMA模型的自相关系数和
偏自相关系数具有的特征
由于平稳可逆ARMA模型既可表示为无穷阶
自回归模型，也可转化为无穷阶移动平均模型，
所以，平稳可逆ARMA模型的的自相关系数是拖
尾的，偏自相关系数也是拖尾的。
总结：ARMA模型相关性特征
模型自相关系数偏自相关系数
AR(p) 拖尾 p 阶截尾
MA(q) q 阶截尾拖尾
ARMA(p,q) 拖尾拖尾
一、建模步骤
平计
稳算
非样模型参数
白本识别估计
噪相
声关
序系
列数模序
N 模型 Y 型列
检验优预
化测
二、样本相关系数的计算
由于平稳时间序列的均值函数和自协方差函数
通常具有遍历性，因此，样本自相关函数和样本偏
自相关函数可利用下式计算。
样本自相关系数
n k
(x t  x )( xt  k  x )
ˆ k  t 1
n
, 1 k  N
 t
( x
t 1
 x ) 2
样本偏自相关系数
Dˆ k
ˆ kk  , 1 k  N
Dˆ
1 ˆ 1 ˆ k 1 1 ˆ 1 ˆ 1
ˆ 1 1 ˆ k  2 ˆ1 1 ˆ 2
Dˆ  , Dˆ k 
ˆ k 1 ˆ k  2 1 ˆ k 1 ˆ k  2 ˆ k
三、模型识别
（一）模型识别（模型定阶）的基本原则
ˆ k ˆ kk 选择模型
拖尾 p 阶截尾 AR(p)
q 阶截尾拖尾 MA(q)
拖尾拖尾 ARMA(p,q)
（二）模型定阶的困难原因：
因为由于样本的随机性，样本的相关系数不会
呈现出理论截尾的完美情况，本应截尾的 ̂ k 或 ˆkk
仍会呈现出小值振荡的情况。
由于平稳时间序列通常都具有短期相关性，随着
延迟阶数 k   ， ̂ k 与 ˆ kk 都会衰减至零值附近作
小值波动。
当 ̂ k或 ˆkk 在延迟若干阶之后衰减为小值波动时，
什么情况下该看作为相关系数截尾，什么情况下该看作
为相关系数在延迟若干阶之后正常衰减到零值附近作拖
尾波动呢？
（三）利用样本自相关系数和偏自相关系数的
统计性质可以帮助我们识别模型。
k
【定理】可以证明： E ( ˆ k )  (1  )  k
n
1 q 2 1 q
Var ( ˆ k )   ˆ m  (1  2 ˆ m2 ), kq
n m  q n m 1
所以，当样本容量 n 充分大时，有
近似近似 1
1
ˆ k ~ N (0, ) ,  kk ~ N (0, )
ˆ
n n
该定理的结论由Barlett和Quenouille得到 .
由正态分布的性质得
 2 2 
P  ˆ k    0.95
 n n
 2 2 
P  ˆ kk    0.95
 n n
（四）模型定阶经验方法：
有样本（偏）自相关系数的近似分布，如果
样本(偏)自相关系数在最初的d 阶明显大于两倍标
准差范围，而后几乎95％的自相关系数都落在2倍
标准差的范围以内，而且通常由非零自相关系数
衰减为小值波动的过程非常突然。这时，通常视
为(偏)自相关系数截尾。截尾阶数为d。
例1 选择合适的模型ARMA拟合1950年—1998年
北京市城乡居民定期储蓄比例序列。
时序图
自相关与偏自相关图
序列自
相关图
序列偏自
相关图
拟合模型识别：
自相关图显示延迟3阶之后，自相关系数全部衰
减到2倍标准差范围内波动，这表明序列明显地短期
相关。但序列由显著非零的相关系数衰减为小值波
动的过程相当连续，相当缓慢，该自相关系数可视
为不截尾（拖尾）。
偏自相关图显示除了延迟1阶的偏自相关系数
显著大于2倍标准差之外，其它的偏自相关系数都
在2倍标准差范围内作小值随机波动，而且由非零
相关系数衰减为小值波动的过程非常突然，所以
该偏自相关系数可视为一阶截尾。
所以，本例可以考虑拟合模型为AR(1)。
例2 1880-1985全球气表平均温度改变值差分序列
时序图
序列自
相关图
序列偏自
相关图
拟合模型识别：
自相关系数显示出不截尾的性质；
偏自相关系数也显示出不截尾的性质；
综合该序列自相关系数和偏自相关系数的性质，
可以尝试使用ARMA(1,1)模型拟合该序列。
四、参数估计
对一个非中心化ARMA(p,q)模型
xt  0  1 xt 1    p xt  p   t  1 t 1    q t  q
其中共有 p  q  2 个未知参数需要估计：
1 , ,  p ,1 , , q ,  ,  2
常用估计方法：
（1）矩估计（2）极大似然估计
（3）最小二乘估计
（一）矩估计
原理：利用样本自相关系数估计总体自相
关系数。（依据平稳序列的遍历性）。
 1 (1 , ,  p , 1 , ,  q )  ˆ 1


  ( , ,  , , ,  )  ˆ
 p q 1 p 1 q p q
n
1
 0  ˆ x2   ( xi  x )2
n
1
ˆ  x   xi n i 1
n i 1
（1）AR(p)模型的矩估计
利用Yule-Walker方程
 1 1  p 1    1   1 
    
 1 1  p  2   1    2 
     
    

 p 1  p 2 1    p    p 
可得  1 ,  2 , ,  p 的矩估计：
1
 1   1 1  p 1   1 
     
  2    1 1  p 2   2 
     
     
  p    p 1  p 2 1   p 
利用实际时间序列提供的信息，首先求得
ˆ1 , ˆ 2 , , ˆ p
自相关函数的估计值：
然后利用Yule Walker方程组，求解模型参数
的估计值：ˆ1 , ˆ 2 , , ˆ p
1
 ˆ1   1 ˆ1 ˆ p1   ˆ 1 
ˆ   ˆ   ˆ 
  2    1 1 ˆ p 2   2 
     
     
 ˆ p   ˆ p 1 ˆ p  2 1   ˆ p 
对于零均值AR模型（中心化AR ）
 0  E ( xt xt )
 E  xt (1 xt 1   2 xt  2    p xt  p   t ) 
 1 1   2 2    p p   2
所以，   的估计是：
2
ˆ 2  ˆ0  (ˆ1ˆ1  ˆ 2ˆ2   ˆ pˆ p )

 ˆ0 (1  (ˆ1 ˆ 1  ˆ 2 ˆ 2   ˆ p ˆ p ))
其中， ˆ0 的估计是：
n
1
ˆ0   x2   ( xi  x )2
n i 1
例3: 求AR(1) 、AR(2)模型系数的矩估计
AR(1)模型： xt  1 xt 1   t
Yule-Walker方程：  1  1 0
1
 1   1
0
所以，矩估计为： ˆ1  ˆ1
ˆ 2  ˆ0 (1  ˆ1 ˆ1 )  ˆ0 (1  ˆ12 )

AR(2)模型： xt  1 xt 1   2 xt  2   t
Yule-Walker方程：
 1   1 1    1   1   1   2 1
     
  2   1 1   2 
  2   1 1   2
 1 (1   2 )
1  1  12

解方程得： 
   2  12
 2 1  12
1 ,  2 的矩估计（Yule-Walker方程的解）为：
1  ˆ 2
ˆ1  ˆ 1
1  ˆ 1
2
ˆ 2  ˆ12
ˆ 2 
1  ˆ12
 2 的矩估计为：
ˆ 2  ˆ0 (1  ˆ1 ˆ1  ˆ2 ˆ 2 )

n
1
其中，ˆ0   x2   ( xi  x )2
n i 1
（2）MA (q)模型的矩估计
由MA(q)模型自协方差函数计算公式
  0  (1  12    q2 ) 2

 k  (  k   k 11   k  2 2    q q  k ) 
2 ()

 k  1, 2, , q
从这q+1个方程中，求解出 1 , 2 , , q ,  2
即可得到矩估计。
例4:求MA(1) 、MA(2)模型系数的矩估计
MA(1)模型： xt   t  1 t 1
方程：
 0  (1  12 ) 2 1 1
  1  
 1  1 
2
 0 1   1
2
矩估计（注意到 1  1 ）：
 1  1  4 
ˆ 12 ˆ1
ˆ1  ˆ   
2
2 ˆ1 ˆ1
MA(2)模型： xt   t  1 t 1   2 t  2
方程：
 0  (1  12   22 ) 2


 1  (  1   
2 1 ) 
2
     2
 2 2 
直接求解上述方程很困难，一般只能用
数值解法。通常的数值解法有线性迭代法和
Newton-Raphson迭代法.
（3）ARMA(p,q)模型的矩估计
xt  1 xt 1    p xt  p   t  1 t 1    q t  q
第一步，先估计 1，2，， p
1
 ˆ1   ˆ q ˆ q 1 ˆ q  2 ... ˆ q  p 1   ˆ q 1 
ˆ   ˆ   
  2     q 1 ˆ q ˆ q 1 ... ˆ q  p   ˆ q  2 
 ...   ... ... ... ... ...   ... 
     
 ˆ p   ˆ q  p 1 ˆ q  p  2 ˆ q  p  3 ... ˆ q   ˆ 
 q p 
第二步，改写模型，求 1 , 2 , ,q 以及
 2 的估计值
将模型：
xt  1 xt 1    p xt  p   t  1 t 1    q t  q
改写为：
xt  1 xt 1    p xt  p   t  1 t 1   q t q (*)
令 xt  ˆ1 xt 1   ˆ p xt  p
于是(*)可以写成：
xt   t  1 t 1  2 t  2   q t q
构成一个MA(q)模型。按照估计MA模型参
数的方法，可以得到 1 , 2 , ,q 以及  2 的估计
值。
例5:求ARMA(1,1)模型系数的矩估计
ARMA(1,1)模型: xt  1 xt 1   t  1 t 1
【解】在模型的两边取方差得：
Var ( xt )  Var (1 xt 1   t  1 t 1 )   2
 12Var ( xt 1 )  Var ( t )  12Var ( t 1 )  211 E( xt 1 t 1 )
 0  12 0   2  12 2  211 2
1  12  211 2
  0  Var ( xt ) 
1  1 2

E  xt xt 1   E (1 xt 1   t  1 t 1 ) xt 1 
  1  1 0  1 E  t 1 xt 1 
  1  1 0  1 2
1  2
  1   1
0 0
 2  2
 1   1   1  1  1
0 1  12  211 2

1  1 2
(1  1 )(1  11 )


1  12  211
k  2:  k  0.5 k 1  0   k   1  k 1  0
  1 (1  1 )(1  11 )

方程:  1  
  0 1   1  2 1 1
2
   
 2 1 1
整理上述方程组得:
 2 1  12  2  2
1  1  1  0
  1  1
   
 2 1 1
即 12  c1  1  0 1  12  2  2
 c
  2  1 1 1  1
解上述方程得 1 ,1 的矩估计:
c  c2  4
 , c  2
ˆ 2 ˆ  2
ˆ1  , 1   ,
ˆ 1 c  c2  4
 ,c  2
2
1  ˆ12  2 ˆ 2
其中，c 
ˆ1  ˆ1
再由
(1  12  211 ) 2
0 
1  12
 2
可得  的矩估计为:
1  
ˆ 2
ˆ 2  1
ˆ0
1  ˆ  2ˆ ˆ
1
2
1 1
n
1
其中，ˆ0   x2   ( xi  x )2
n i 1
（3）对矩估计的评价
优点：估计思想简单直观；不需要假设总体
分布；计算量小（低阶模型场合）。
缺点：信息浪费严重，只用到了p+q个样本
自相关系数信息，其他信息都被忽略；估计精
度差。
通常矩估计方法被用作极大似然估计和最小
二乘估计迭代计算的初始值。
（二）极大似然估计
1. 极大似然估计思想
原理：在极大似然准则下，认为样本来自使该
样本出现概率最大的总体。因此未知参数的极大似
然估计就是使得似然函数（即联合密度函数）达到
最大的参数值。
L( ˆ1 , ˆ2 , , ˆk ; x1 , x1 , , xn )
 max{ p( x1 , x1 , , xn ); 1 ,  2 , , k }
极大似然估计的精度较高，一般称之为模型的
精估计，通常需要知道总体的分布，计算较为复杂。
例6 求高斯AR(1)过程似然函数
X t  c   X t 1   t
其中  t ~i .i .d . N  0,  2  ,   (c, , 2 )T
当   1 时，高斯AR(1)过程是平稳的，因
而 Xt 是高斯的（正态的）。先求 X1 的分布
EX 1    c (1   )
DX 1  E ( X 1   )2   2 (1   2 )
 X1 N (c (1   ),  2 (1   2 ))
f X1 ( x1 ; )  f X1 ( x1 ; c ,  ,  2 )
1 { x1  [c (1   )]}2
 exp[ ]
2  (1   )
2 2 2  (1   )
2 2
再求X2在 X 1  x1 的条件下的分布
X 2  c   X1   2
 X2 X1  x1 ~N ( c   x1 ,  2
)
1 ( x2  c   x1 )2
f X 2 X1 ( x2 x1 ; )  exp[ ]
2 2 2
类似地
X3  c   X2  3
 X3 X 2  x2 , X1  x1 N (c   x2 ,  2 )
 ( x3  c   x2 ) 2
1
f X 3 X 2 , X1 ( x3 x2 , x1 ; )  exp[ ]
2 2 2
f XT XT 1 , XT 2 , , X1
( xT xT 1 , xT  2 , , x1 ; )
1 ( xT  c   xT 1 )2
 exp[ ]
2 2 2
则 ( X 1 , X 2 , , X T ) 的联合密度为
f XT , XT 1 , XT 2 , , X1 ( xT , xT 1 , xT  2 , , x1 ; )
T
 f X1 ( x1 ; )  f X t X t 1 ( xt xt 1 ; )
t 2
c 2
 ( x1  )
1 1
 exp[ ]
2  2 (1   2 ) 2  (1   )
2 2
T 1  ( xt  c   x t 1 )2
 exp[ ]
t  2 2  2 2
对数似然函数为
T
l ( )  ln f X1 ( x1 ; )   ln f X t X t 1 ( xt xt 1 ; )
t 2
c 2
( x1  )
1 1 1
  ln(2 )  ln[ 2 (1   )] 
2
2 2 2  2 (1   2 )
T 1 T 1 T
( x  c   x ) 2
 ln(2 )  ln( 2 )   t t 1
2 2 t 2 2 2
2. 条件极大似然估计
求精确极大似然估计的另一方法是将x1的值
视作确定性的，然后最大化以第一个观察值为条
件的似然值。称为条件极大似然估计。
T
f XT , XT 1 , X 2 X1
( xT , xT 1 , , x2 x1 ; )   f X t X t 1 ( xt xt 1 ; )
t 2
ln f XT , XT 1 , , X 2 X1
( xT , xT 1 , , x2 x1 ; )
T 1  ( xt  c   xt 1 )2
 ln(  exp[ ])
t  2 2 2 2
T 1 T 1 T
( x  c   x ) 2
 ln(2 )  ln( 2 )   [ t t 1
] -------（*）
2 2 t 2 2 2
c和  的最大似然估计等价于最小化
T T
 t
( x
t 2
 c   x t 1 ) 2
= t
 2
t 2
利用普通的最小二乘回归(OLS)，可得  c,  
的条件似然估计为：
1
 T
  T 
 cˆ   T 1  X t 1    Xt 
ˆ    T
t 2
  t 2 
  2  T 
T
  X t 1  X t 1    X t 1 X t 
 t 2 t 2   t 2 
（*）式对  2
求导可得  2
的条件似然估计
T  1 T ( xt  c   xt 1 ) 2
  [ ] 0
2 2
t 2 2 4
T
( x  ˆ
c  ˆ x ) 2
1 T
ˆ 2   [ t t 1
]  (ˆ ) 2
t 2 T  1 T  1 t 2
t
精确似然估计通常是非线性的，往往要用迭代
的方法求解。显然条件极大似然估计更易于计算。
且当样本量T充分大时，第一个观察值对总似然值
的影响可以忽略。
3. 非高斯时间序列的最大似然估计
通常将非高斯时间序列通过某一变换变为高斯
时间序列。
常用以下变换（Box-Cox）：
 X t  1
 ,  0
Yt   
 ln X ,   0
 t
4. 对极大似然估计的评价
1、优点（1）极大似然估计充分应用了每一
个观察值所提供的信息，因而它的估计精度高；
（2）同时还具有估计的一致性、渐近正态性
和渐近有效性等许多优良的统计性质。
2、缺点（1）需要假定总体分布；
（2）计算较复杂。
（三）最小二乘估计
（1）原理：使残差平方和达到最小的那组参
数值即为最小二乘估计值。
Q( ˆ )  min Q(  )
n
 min   t2
t 1
n
 min  ( xt  1 xt 1    p xt  p  1 t 1    q t  q )2
t 1
由于随机扰动  t 1 ,  t  2 , 不可观测，通常使用
条件最小二乘估计方法，即假定过去未观测到的序
列值为零。
xt  0, t0
这样  t 就可以利用序列观测值的有些项表示
出来，即
( B ) t
t  x t  x t    i xt  i
( B ) i 1
n n t
Q( ˆ ) min   t2  min  ( xt    i xt  i )2
t 1 t 1 i 1
（2）对最小二乘估计的评价
最小二乘估计充分应用了每一个观察值所提
供的信息，因而它的估计精度高；条件最小二乘
估计方法使用率最高。
例7：确定1950年—1998年北京市城乡居民定
期储蓄比例序列拟合模型的口径
拟合模型：
AR(1)
估计方法：极大似然估计
此处极大似然
估计与最小二
乘估计是等价
的
此数是均值
 =E(Xt)
0   (1  1 )
 81.32034
(1  0.703332)
 24.12513
模型输出：
xt  24.125  0.703xt 1   t Var (ˆ2 )  16.468
或 xt  81.32  0.703( xt 1  81.32)   t
估计方法：最小二乘估计命令不同
此数是截
距项  0
xt  24.125  0.703xt 1   t
五、模型检验
当估计完一个模型后，我们还需要对拟合的模
型做必要的检验，以判断模型对样本数据的拟合效
果。通常可以从以下几个方面判断：
（1）残差序列是否是白噪声序列；
（2）所有的系数是否显著不等于0；
（3）模型结构是否简练；
（4）模型是否有一定的经济意义；
（5）模型预测能力如何。
其中最主要的是模型的显著性检验和参数的显
著性检验.
（一）模型的显著性检验
（1）检验目的: 检验模型的有效性（对信
息的提取是否充分）。
（2）检验对象: 残差序列
（3）判定原则
一个好的拟合模型应该能够提取观察值序列
中几乎所有的样本相关信息，即残差序列应该为
白噪声序列。反之，如果残差序列为非白噪声
序列，那就意味着残差序列中还残留着相关信息
未被提取，这就说明拟合模型不够有效。
（4）假设条件
原假设：残差序列为白噪声序列
H 0：1   2    m  0, m  1
备择假设：残差序列为非白噪声序列
H1：至少存在某个 k  0, m  1，k  m
Barlett证明了：如果时间序列  1 ,  2 , ,  n 是白
噪声序列，当样本容量 n 很大时，
近似
ˆ k ~ N (0,1 n)， k  1
这时 n ˆ1 , n ˆ 2 , , n ˆ m 可以近似地看成是
m个相互独立的标准正态分布随机变量。于是有
m 近似
Q  n ( ˆ k )2 ~  2 ( m )
k 1
上述 Q 统计量是由 Box 和 Pierce 给出的，也

记作 QBP ，它在大样本的情形下检验效果较好，但
对于小样本它的检验效果不佳。
为此，Box 和 Ljung对上述 Q 统计量进行了修

正，得到了下列 LB 统计量，也记为 QLB 。
（5）检验统计量：LB统计量
ˆ k2
m
LB  n( n  2) ( ) ~  2 (m)
k 1 n  k
n k
 ˆ ˆ t t k
ˆ k  t 1
n
 t

ˆ 2
t 1
Eviews中检验模型残差序列的自相关性使用
的是 QLB 统计量。
（6）检验规则
若 Q  2 (m) ，则拒绝 H0，认为残差

序列不是白噪声序列；
若 Q   2
 ( m ) ，则接受 H0，认为残差
序列是白噪声序列；
比较 QBP 统计量和 QLB 统计量
m
QBP  n ( ˆ k )2
k 1
m
ˆ k2 m
n 2 2
QLB  n( n  2) ( )  n ( ˆ k )
k 1 n  k k 1 n  k
我们发现：因为 (n  2) (n  k )  1 ，所以
QLB  QBP
这说明利用LB统计量检验更容易拒绝原假设。
对于固定的 k 值，当 n   时，
(n  2) (n  k )  1
也就是说，当样本容量 n 充分大且 k  n 时
QBP 和 QLB 几乎是一样的，这说明在大样本的条
件下，统计量 QBP 和统计量 QLB 差别不大。

例：检验1950年—1998年北京市城乡居民
定期储蓄比例序列拟合模型的显著性。
残差白噪
声序列检
验结果：
延迟阶数 LB统计量 P值检验结论
6 4.93 0.425
12 9.33 0.591 拟合模型
18 10.31 0.890 显著有效
（二）参数的显著性检验
（1）目的：检验每一个未知参数是否显著非
零。删除不显著参数使模型结构最精简
（2）假设条件：
H0 :  j  0
H1 :  j  0 1  j  m
（3）检验统计量：
ˆ j   j
T  nm ~ t (n  m )
a jj Q(  )
n
其中 Q(  )   ˆt2
t 1
拒绝域： T  t 2 (n  m )
例：检验1950年—1998年北京市城乡居民定期
储蓄比例序列极大似然估计模型的参数是否显著。
t 统计量值
p 值
参数检验结果：
检验参数 t统计量 P值结论
均值 41.148 <0.0001 显著
1 6.720 <0.0001 显著
六、模型优化
（一）问题的提出
问题提出：当一个拟合模型通过了检验，说
明在一定的置信水平下，该模型能有效地拟合观
察值序列的波动，但这种有效模型并不是唯一的。
优化的目的：选择相对最优模型。
例: 等时间间隔，连续读取70个某次化学反应
过程的数据，构成一时间序列（数据见附录）。试
对该序列拟合合适的时间序列模型。
自相关图
2阶截尾
偏自相关图
拖尾
拟合模型一
根据自相关系数2阶截尾，拟合MA(2)模型
参数估计：
xt  51.16381  (1  0.32309B  0.31334B2 ) t
模型检验：模型显著有效；三参数均显著。
自相关图
拖尾
偏自相关图
1阶截尾
拟合模型二
根据偏自相关系数1阶截尾，拟合AR(1)模型
参数估计：
xt  73.0863  0.424903 xt 1   t
模型检验：模型显著有效；两参数均显著。
问题：同一个序列可以构造两个拟合模型，
两个模型都显著有效，那么到底该选择哪个模型
用于统计推断呢？
解决办法：确定适当的比较准则，构造适当
的统计量，确定相对最优。
（二）信息准则
1. AIC准则（ Akaike Information Criterion）
由日本统计学家赤池弘次（Akaike）1973 年
提出，称为最小信息量准则。
AIC 准则的基本思想是认为评价一个模型
的优劣可以从两个方面考察：一方面是模型对
数据的拟合效果；另一方面是模型中参数估计
的精度。
通常似然函数值越大（或估计的残差平方和
越小）说明模型的拟合效果越好。一般地，增加
模型中解释变量的个数会使估计的残差平方和降
低，拟合优度增大。
然而，增加模型中解释变量的个数，会使需
估计的参数增多，相应地减少自由度，参数估计
的难度增大，估计的精度变差。甚至，包含了无
关紧要的变量还会降低拟合模型的预测效果。
所以，一个好的拟合模型应该是拟合精度和
未知参数个数的综合最优配置。
AIC准则定义如下： AIC统计量：
惩罚因子为 2
AIC  ln(ˆ 2 )  2T n
其中： n ------可用的序列观测值的个数
T ------待估参数的个数
n
ˆ 2   ˆt2 ------残差平方和
t 1
中心化的ARMA(p,q)模型， T  p  q  1
非中心化的ARMA(p,q)模型，T  p  q  2
可以证明，
n
ln L   ln(ˆ 2 )  K
2
其中K是一个与参数无关的量。于是AIC准则也可
以用如下形式表示：
AIC  2ln( L) n  2T n
其中 L 为极大似然函数值， n为样本容量， T为
待估参数的个数。
AIC准则的缺陷：
AIC准则为我们提供了一个筛选模型的方法，但
AIC准则也有一定的不足。主要是因为当样本容量 n
增大时，待估参数的个数 T 对AIC的值的影响将迅速
变小，在大样本的条件下，AIC的值将主要由 ln(ˆ 2 )
决定。这样，在样本容量趋于无穷大时，由AIC准则
选择的模型将不收敛于真实模型，它通常比真实模型
所含的未知参数的个数要多。
因此，当样本容量很大时，AIC准则倾向于选择
多参数模型。
2. SBC准则
（Schwartz Bayesian informatiom criterion）
为了弥补AIC准则的不足，Schwartz 在1978年
根据Bayes理论提出了SBC准则, 也称BIC准则或SC
准则（Schwartz criterion）。
SC准则的定义如下：
SBC统计量：
SBC  ln(ˆ 2 )  T ln(n) n
SBC  2ln( L) n  T ln(n) n
其中：n为可用的序列观测值的个数，T为待估参数
的个数，L为极大似然函数值。
SBC准则具有更优的大样本特性。对于一个
ARMA(p,q)模型来说，当样本容量充分大时，利
用AIC准则和SBC准则选择的模型的阶数都会大
于等于模型的真实阶数。但是，可以证明利用
SBC准则选择的模型的阶数是真实阶数的渐近一
致估计。然而，在小样本的情况下，AIC准则的
效果要优于SBC准则。
我们在建模时，当然是 AIC的值（或者是SBC
的值）越小越好。但需要注意的是：在比较两个备
选模型的 AIC 的值（或者是 SBC 的值）时，必须
基于是由相同样本期估计的模型。
此外，还需注意的是：如果依据 AIC 准则和

SBC 准则选择的模型相同，我们就会对自己选择的
模型更有信心。但是，如果依据 AIC 准则和 SBC准
则选择的模型不同，为了谨慎起见，我们应作进一
步分析。
一般说来，SBC 准则倾向于选择更为简练
的模型，所以，这时应进一步检验残差是否为
白噪声。而 AIC 准则倾向于选择更多参数模
型，那么我们就应该注意模型中所有系数的 t
检验是否显著。当然，还可以结合其他检验标
准（例如模型的预测效果等）来帮助我们选择
相对最优模型。
最后要注意：在使用AIC（或 SBC）准则选
择模型时，我们只能得到相对最优模型，而不可
能得到绝对最优模型。（因为不可能比较所有模
型的AIC值）。
建立时间序列模型的最终目的常常是要利用
所建模型对随机序列的未来发展进行预测。所谓
预测是要利用序列已观测到的样本值对序列未来
某个时刻的取值进行估计。预测方法主要有线性
最小方差预测和条件期望预测。
（一）线性预测
所谓线性预测是指利用已知观测值的线性函
数来估计时间序列的未来值的预测方法。
假定 X t , X t 1 , 是序列的已知历史观测值，
X t  l (l  1) 是未来时刻的序列值，用 X t , X t 1 ,
的线性函数：

Xˆ t  l   Ci X t  i
i 0
作为 X t  l 的估计值，则称 Xˆ t  l 是 X t  l 的线性预
测，记为 Xˆ t ( l ) 。
预测误差记为 et ( l ) ，则
et (l )  X t  l  Xˆ t  l  X t  l  Xˆ t (l )
问题：我们依据什么原则来确定预测函数中
的 C i（即 X t  i 前面的系数 C i ）呢？最常用的方法
是根据预测的均方误差最小的原则来确定系数C i 。
即选择使得均方误差 E ( X t  l  Xˆ t  l )2 最小。据此得
到的线性预测称为线性最小均方误差预测。
（二）预测方差最小原则
预测误差：
et (l )  X t  l  Xˆ t (l )
我们要求的预测值 Xˆ t ( l ) 就是使得预测误差
的方差最小，即
min Var et (l )
由于 Xˆ t ( l ) 是 X t , X t 1 , 的线性函数，所以
该原理也称为线性预测方差最小原理。
对于一个平稳可逆的ARMA模型来说，由于
信息  X t , X t 1 ,  与信息  t ,  t 1 , 是等价的，因
此，基于信息  X t , X t 1 ,  的预测和基于信息
 t ,  t 1 ,  的预测是相同的。为了讨论的方便，
我们将的线性预测表示为：

Xˆ t  l  Xˆ t (l )   Di  t  i
i 0
那么，问题转化为如何选择常数 Di ，使得上式是
X t  l 的最佳线性预测（均方误差最小预测）。
假设平稳可逆ARMA模型的传递形式为：
X t   t  G1 t 1  G2 t  2 
则
X t  l   t  l  G1 t  l 1  G2 t  l  2   Gl 1 t 1  Gl  t  Gl 1 t 1 

Xˆ t  l   Di  t  i  D0 t  D0 t 1 
i 0
于是，预测误差为：
et ( l )  X t  l  Xˆ t ( l )
  t  l  G1 t  l 1  G2 t  l  2   Gl 1 t 1  (Gl  D0 ) t  (Gl 1  D1 ) t 1 

预测误差的方差为：
Var (et (l ))  (1  G12   Gl21 )  (Gl  D0 )2  (Gl 1  D1 )2    2
显然，当
Di  Gl  i , i  0,1, 2,
时，可以使预测误差的方差达到最小。于是，我们
得到 X t  l 的线性最小均方误差预测为：

Xˆ t  l   Gl  i  t  i  Gl  t  Gl 1 t 1  Gl  2 t  2 
i 0
X t  l   t  l  G1 t  l 1  G2 t  l  2   Gl 1 t 1  Gl  t  Gl 1 t 1  Gl  2 t  2 

 
最小均方误差预测误差：et ( l ) 最小均方误差预测值：Xˆ t  l
此时，最小均方误差预测的预测误差为：
et (l )  X t  l  Xˆ t (l )   t  l  G1 t  l 1  G2 t  l  2   Gl 1 t 1
预测误差的方差为：
Var (et (l ))  (1  G12   Gl21 ) 2
若  t  是正态白噪声序列，则
et (l ) N (0, (1  G12   Gl21 ) 2 )
由此可以看出，预测步长 l 越大，则预测的方差也
越大，从而预测的精度越低。这就意味着时间序列
数据通常只适合做短期预测。
（三）条件期望预测
1.条件数学期望的概念
（1）离散型随机变量的情形
设 ( X , Y ) 是离散随机向量，联合分布律为
P( X  xi ,Y  y j )  pij , i , j  1, 2,
Y 的边缘分布律为:

P (Y  y j )   pij  p j , j  1, 2,
i 1
P ( X  xi , Y  y j ) pij
称 P ( X  xi Y  y j )   , i  1, 2,
P (Y  y j ) p j
为给定 Y  y j 时X 的条件分布律。
  pij
称 E ( X Y  y j )   xi P ( X  xi Y  y j )   xi
i 1 i 1 p j
j  1, 2,
为给定 Y  y j 时 X 的条件数学期望。
类似地，可定义给定 X  xi 时Y 的条件数学期望。
显然 E ( X Y  y j ) 依赖于事件 Y  y j  , 它的取值随Y 的
的取值不同而不同。
因此。我们可以定义一个新的随机变量 E ( X Y ) ，当

  Bj   Y  y j 
它的取值为 E ( X Y  y j ) 。此时称 E ( X Y ) 为随机变量X关于
随机变量Y的条件数学期望。
【关于条件期望 E ( X Y ) 的几点说明】
1. 条件期望 E ( X Y ) 是一个随机变量，它是随
机变量Y 的函数，当

  Bj   Y  y j 
时， E ( X Y ) 的取值为 E ( X Y  y j ) 。
2. 当 E ( X Y  y j )  E ( X Y  yk ), j  k 时，有
 
P E ( X Y )  E ( X Y  y j )  P (Y  y j )
3. 类似地，可定义条件期望 E( X Y , Z ) ，以及
E( X X1 , X 2 , , Xn )
例设随机向量 ( X , Y ) 的联合分布率为
X Y 1 2 3
1 1 1 1
3 6 9
2 1 2 1
9 9 18
求 E ( X Y ) 的分布律， EX ，E ( E ( X Y )) 。
解先求E ( X Y ) 的可能取值
2
5
E ( X Y  1)   iP( X  i Y  1) 
i 1 4
2
11
E ( X Y  2)   iP( X  i Y  2) 
i 1 7
2
4
E ( X Y  3)   iP( X  i Y  3) 
i 1 3
故 E ( X Y ) 的分布率为
E( X Y ) 5 11 4
4 7 3
P( E ( X Y )  E ( X Y  y j ))
4 7 3
 P(Y  y j ) 9 18 18
5 4 11 7 4 3 25
E ( E ( X Y ))       
4 9 7 18 3 18 18
11 7 25
EX  1  2   从而 E(E( X Y ))  EX
18 18 18
（2）连续型随机变量的情形

设 ( X , Y ) 的联合密度函数为 f ( x , y ) ，fY ( y )   f ( x , y )dx
给定Y= y 条件下 X 的条件概率密度函数为：
f ( x, y )
f X Y  y ( x y) 
fY ( y )
条件分布函数为：
f ( u, y )
FX Y  y ( x y )  P ( X  x Y  y )  
x
du
 fY ( y )
条件数学期望为：
  f ( x, y)
E( X Y  y)   xf X Y  y ( x y )dx   x dx
  fY ( y )
 f ( x, y)
显然： E ( X Y  y )   x dx
 fY ( y )
  ( y)
于是定义随机变量 E ( X Y ) 如下：
E( X Y )   ( y) y Y   (Y )
称 E ( X Y ) 为随机变量X 关于随机变量Y 的条件数学期望。

（3）条件期望的主要性质
1. E (c Y )  c，c 是常数;
2. 线性性：
E (aX  bY ) Z   aE  X Z   bE Y Z  , a, b是常数.
3. 全期望公式：
E  X   E  E ( X Y )
E  g( X )  E  E[ g ( X ) Y ]
E  E[ g( X , Y ) Y ]  E[ g( X , Y )]
4. 提取已知量：
E[ g( X )h(Y ) X ]  g( X ) E[h(Y ) X ]
E[ g( X )h(Y ) Y ]  h(Y ) E[ g( X ) Y ]
5. 如果 X 与 Y 相互独立,则
EX Y  EX
6. 信息准则：
E[ E( X Y , Z ) Y ]  E[ E ( X Y ) Y , Z ]
 E( X Y )
（4）条件期望的计算
1. 离散型：先计算

E ( X Y  y j )   xi P ( X  xi Y  y j )
i 1
 pij
  xi  ( yj )
i 1 p j
则 E( X Y )   ( y j ) y j Y   (Y )
2. 连续型：先计算

E( X Y  y)   xf X Y  y ( x y )dx

 f ( x, y)
 x dx   ( y )
 fY ( y )
则 E( X Y )   ( y) y Y   (Y )
（5）条件数学期望的应用
定理：在已知随机变量 X 的条件下，条件期望 E (Y X )
是随机变量Y 的最佳预测（均方意义下）。
证明：设 g(x) 是任一可测函数，则
E[(Y  g ( X ))2 | X ]
 E[(Y  E (Y | X )  E (Y | X )  g( X ))2 | X ]
 E[(Y  E (Y | X ))2 | X ]  E[( E (Y | X )  g( X ))2 | X ]

2 E[(Y  E (Y | X ))( E (Y | X )  g( X )) | X ]
注意到： E[(Y  E (Y | X ))( E (Y | X )  g ( X )) | X ]

 ( E (Y | X )  g( X )) E[(Y  E (Y | X )) | X ]  0
于是：
E[(Y  g ( X ))2 | X ]
 E[(Y  E (Y | X ))2 | X ]  E[( E (Y | X )  g( X ))2 | X ]
 E[(Y  E (Y | X ))2 | X ]
两边取数学期望，即得：
E[(Y  g( X ))2 ]  E[(Y  E (Y | X ))2 ]

2. 条件期望预测
假定 X t , X t 1 , 是序列的已知历史观测值，
X t  l (l  1) 是未来时刻的序列值，用条件期望：
Xˆ t  l  E ( X t  l X t , X t 1 , )
作为 X t  l 的估计值，则称 Xˆ t  l 是 X t  l 的条件期望
预测。
3. 条件期望预测与线性预测的关系
E[( X t  l  f ( X t , X t 1 , ))2 ]  E[( X t  l  E ( X t  l X t , X t 1 , ))2 ]
对于平稳可逆的ARMA(p,q)模型来说，有
E ( X k X t , X t 1 , )  X k (k  t )
E ( k X t , X t 1 , )   k (k  t )
E ( k X t , X t 1 , )  0 (k  t )
E ( X k X t , X t 1 , )
 E ( X k  t ,  t 1 , )  X k (k  t )
假设ARMA模型的传递形式为：
X t   t  G1 t 1  G2 t  2 
Xˆ t  l  E ( X t  l X t , X t 1 , )
 E   t  l  G1 t  l 1   Gl 1 t 1  Gl  t  Gl 1 t 1  X t , X t 1 , 

 E   t  l  G1 t  l 1   Gl 1 t 1  Gl  t  Gl 1 t 1   t ,  t 1 , 
 Gl  t  Gl 1 t 1 
由此可见，对于一个平稳可逆的ARMA模型
来说，条件期望预测与线性最小均方误差预测是
等价的。
AR(1)序列的预测：一般地有：
xt   0   1 xt 1   t xˆ t ( l )   0  1 xˆ t ( l  1)
  0 (1  1   1l 1 )  1l xt
xˆ t (1)  E ( xt 1 xt , xt 1 , ) 0
lim xˆ t ( l ) 
 E ( 0  1 xt   t 1 ) xt , xt 1 ,  l  1  1
  0   1 xt 预测误差：
et ( l )   t  l  G1 t  l 1   Gl 1 t 1
xˆ t (2)  E ( xt  2 xt , xt 1 , )
预测误差方差：
 E ( 0  1 xt 1   t  2 ) xt , xt 1 , 
Var (et (l ))  (1  G12   Gl21 ) 2
  0   1 E ( x t  1 x t , x t 1 , ) l 1
  2  12 j
  0  1 ( 0  1 xt ) j0
  0  1 0   x
 2
limVar (et (l ))   Var ( xt )
2
1  1
1 t 2
l 
AR(2)序列的预测：一般地 l  2 时，有：
xt   1 xt 1   2 xt  2   t xˆ t ( l )  1 xˆ t ( l  1)   2 xˆ t ( l  2)
xˆ t (1)  E ( xt 1 xt , xt 1 , ) 预测值满足差分方程：
  1 xt   2 xt 1 xˆ t ( l )  1 xˆ t ( l  1)   2 xˆ t ( l  2)  0
xˆ t (2)  E ( xt  2 xt , xt 1 , ) 预测误差：
 1 xˆ t (1)   2 xt et ( l )   t  l  G1 t  l 1   Gl 1 t 1
预测误差方差：
xˆ t (3)  E ( xt  3 xt , xt 1 , )
 1 xˆ t (2)   2 xˆ t (1) Var (et (l ))  (1  G12   Gl21 ) 2
limVar (et (l ))  Var ( xt )

l 
AR(p)序列的预测：
xˆ t (l )  E ( xt  l xt , xt 1 , )
 E (1 xt  l 1  2 xt  l  2    p x t  l  p   t  l xt , xt  1 , )
预测值: xˆ t (l )  1 xˆ t (l  1)    p xˆ t (l  p)
 xˆ t ( k ), k  1
xˆ t ( k )  
 xt  k , k  0
预测误差方差:
Var[et (l )]  (1  G12   Gl21 ) 2
95％置信区间：
 1

 
  1  G   
ˆ
 t
x ( l ) z 1 G 2 2
l 1
2
1
 2 
例已知某超市月销售额近似服从 AR(2) 模
型（单位：万元/每月）
xt  10  0.6 xt 1  0.3 xt  2   t ,  t ~ N (0, 36)
今年第一季度该超市月销售额分别为：
101，96，97.2万元
请确定该超市第二季度每月销售额的95％的
置信区间。
解：预测值计算
xˆ t (1)  E ( xt 1 xt , xt 1 , )
 E (10  0.6 xt  0.3 xt 1   t 1 xt , xt 1 , )
 10  0.6 xt  0.3 xt 1
于是，四月份预测值为：
xˆ 3 (1)  10  0.6 x3  0.3 x2  97.12

同样地，
xˆ t (2)  E ( xt  2 xt , xt 1 , )
 E (10  0.6 xt 1  0.3 xt   t  2 xt , xt 1 , )
 10  0.6 E ( xt 1 xt , xt 1 , )  0.3 xt 1
 10  0.6 xˆ t (1)  0.3 xt 1
于是，五月份预测值为：
xˆ 3 (2)  10  0.6 xˆ 3 (1)  0.3 x3

 10  0.6  97.12  0.3  97.2
 97.432
xˆ t (3)  E ( xt  3 xt , xt 1 , )
 E (10  0.6 xt  2  0.3 xt 1   t  3 xt , xt 1 , )
 10  0.6 xˆ t (2)  0.3 xˆ t (1)
于是，六月份预测值为：
xˆ 3 (3)  10  0.6 xˆ 3 (2)  0.3 xˆ 3 (1)

 10  0.6  97.432  0.3  97.12
 97.5952
预测方差的计算
GREEN函数:
G0  1
G1  1G0  0.6
G2  1G1   2G0  0.36  0.3  0.66
于是，预测误差的方差为:
Var[e3 (1)]  G02 2  36

Var[e3 (2)]  (G02  G12 ) 2  48.96
Var[e3 (3)]  (G02  G12  G22 ) 2  64.6416
预测的置信区间（95%）：
( xˆ 3 ( l )  1.96 Var[e3 ( l )] , xˆ 3 ( l )  1.96 Var[e3 ( l )])
估计结果:
预测时期 95％置信区间
四月份（85.36，108.88）
五月份（83.72，111.15）
六月份（81.84，113.35）
MA(1)序列的预测：
xt     t  1 t 1
xˆ t (1)  E ( xt 1 xt , xt 1 , )
 E (    t 1  1 t ) xt , xt 1 , 
   1 t
et (1)  xt 1  xˆ t (1)
    t 1  1 t  (   1 t )
  t 1
Var (et (1))  Var ( t 1 )   2

xˆ t (2)  E ( xt  2 xt , xt 1 , )
 E (    t  2  1 t 1 ) xt , xt 1 , 

et (2)  xt  2  xˆ t (2)
    t  2  1 t 1  
  t  2  1 t 1
Var (et (2))  Var ( t  2  1 t 1 )

 (1  12 ) 2
一般地：
xˆ t ( l )   , l2
et ( l )  xt  l  xˆ t ( l )
    t  l  1 t  l 1  
  t  l  1 t  l 1
Var (et ( l ))  Var ( t  l  1 t  l 1 )

 (1  12 ) 2

l 
一般地，MA(q)序列的预测：
预测值:  q
     i t  l  i ,l  q
xˆ t ( l )   il
 ,l  q

预测方差:
(1  12    l21 ) 2 , l  q
Var[et ( l )]  
 (1   1 
2
  q2 ) 2 , l  q
lim xˆ t (l )    E ( xt )
l 

l 
例：已知某地区每年常驻人口数量近似服从
MA(3) 模型（单位：万）：
xt  100   t  0.8 t 1  0.6 t  2  0.2 t  3
最近3年的常驻人口数量及一步预测数量如下：
年份统计人数预测人数
2002 104 110
2003 108 100
2004 105 109
预测未来5年该地区常住人口的95％置信区间。
【解】随机扰动项的计算：
 t  2  x2002  xˆ 2001 (1)  104  110  6
 t 1  x2003  xˆ 2002 (1)  108  100  8
 t  x2004  xˆ 2003 (1)  105  109  4
预测值的计算：
xˆ t (1)  100  0.8 t  0.6 t 1  0.2 t  2  109.2
xˆ t (2)  100  0.6 t  0.2 t 1  96
xˆ t (3)  100  0.2 t  100.8
xˆ t (4)  100
xˆ t (5)  100
预测方差的计算：
Var[et (1)]   2  25
Var[et (2)]  (1  12 ) 2  41
Var[et (3)]  (1  12   22 ) 2  50
Var[et (4)]  (1  12   22   32 ) 2  51
Var[et (5)]  (1  12   22   32 ) 2  51
预测的置信区间（95%）：
( xˆ t ( l )  1.96 Var[et ( l )] , xˆ t ( l )  1.96 Var[et ( l )])
预测年份 95％置信区间
2005 （99，119）
2006 （83，109）
2007 （87，115）
2008 （86，114）
2009 （86，114）
ARMA(2,1)序列预测：
xt  1 xt 1  2 xt  2   t  1 t 1
xˆ t (1)  E ( xt 1 xt , xt 1 , )
 E (1 xt   2 xt 1   t 1  1 t ) xt , xt 1 , 
 1 xt   2 xt 1  1 t
xˆ t (2)  1 xˆ t (1)   2 xt
xˆ t (3)  1 xˆ t (2)   2 xˆ t (1)

一般地：
xˆ t ( l )  1 xˆ t ( l  1)   2 xˆ t ( l  2)  0( l  3)
ARMA(p,q)序列预测：
预测值：
 q
1 xˆ t ( l  1)    p xˆ t ( l  p)    i  t  l  i , l  q
xˆ t ( l )   il
  xˆ ( l  1)    p xˆ t ( l  p) , lq
 1 t
 xˆ t ( k ) , k  1
其中： xˆ ( k )  
 xt  k , k  0
t
预测方差：
Var[et (l )]  (G01  G12   Gl21 ) 2
例：已知ARMA(1,1)模型为
xt  0.8 xt 1   t  0.6 t 1  2  0.0025
且 x100  0.3,  100  0.01
预测未来 3 期序列值的 95％的置信区间。
【解】预测值的计算
xˆ 100 (1)  0.8 x100  0.6 100  0.234

xˆ 100 (2)  0.8 xˆ 100 (1)  0.1872
xˆ 100 (3)  0.8 xˆ 100 (2)  0.14976
预测方差的计算：
Green函数：
G0  1
G1  1G0  1  0.2
G2  1G1  0.16
方差：
Var[e100 (1)]  G02 2  0.0025
Var[e100 (2)]  (G02  G12 ) 2  0.0026
Var[e100 (3)]  (G02  G12  G22 ) 2  0.002664
置信区间的计算：
( xˆ t ( l )  1.96 Var[et ( l )] , xˆ t ( l )  1.96 Var[et ( l )])
时期 95％置信区间
101 （0.136，0.332）
102 （0.087，0.287）
103 （－0.049，0.251）
（四）修正预测
1. 定义所谓的修正预测就是研究如何利用
新的信息去获得精度更高的预测值。
2. 修正方法
（1）若新得到的信息量比较大——可以把
新信息加入到旧的信息中，重新拟合模型。
（2）若新得到的信息量很小——可以不重新
拟合模型，只是将新的信息加入以修正预测值，
提高预测精度。
3. 修正原理
在旧信息 xt , xt 1 , 的基础上， xt  l 的预测值为
xˆ t ( l )  Gl  t  Gl 1 t 1 
假设新获得一个观察值 xt 1，则 xt  l 修正预测值为
xˆ t 1 ( l  1)  Gl 1 t 1  Gl  t  Gl 1 t 1 
 Gl 1 t 1  xˆ t ( l )
显然， xˆ t 1 ( l  1)  xˆ t ( l )
修正预测误差为：
et 1 ( l  1)  X t  l  Xˆ t 1 ( l  1)
 G0 t  l   Gl  2 t  2
修正预测方差为：
Var[et 1 (l  1)]  (G02   Gl2 2 ) 2
因为 Var[et (l )]  (G01  G12   Gl21 ) 2
所以 Var[et 1 ( l  1)] Var[et ( l )]

更一般的情况：
在旧信息 xt , xt 1 , 的基础上， xt  l 的预测值为
xˆ t ( l )  Gl  t  Gl 1 t 1 
假设新获得 p 个观察值 xt 1 , , xt  p ，则 xt  l 修
正预测值为
xˆ t  p (l  p)  Gl  p t  p   Gl 1 t 1  xˆ t (l )
修正预测误差为：
et  p (l  p)  G0 t  l   Gl  p1 t  p1
Var[et  p ( l  p)]  (G02   Gl2 p 1 ) 2

例已知某超市月销售额近似服从 AR(2) 模
型（单位：万元/每月）
xt  10  0.6 xt 1  0.3 xt  2   t ,  t ~ N (0, 36)
今年第一季度该超市月销售额分别为：
101，96，97.2万元
请确定该超市第二季度每月销售额的95％的
置信区间。
例 (上例续) 假如四月份的真实销售额为100万
元，求二季度后两个月销售额的修正预测值。
解：计算四月份的预测误差
 4  x4  xˆ 3 (1)  100  97.12  2.88
修正预测值为：
xˆ 4 (1)  G1 4  xˆ 3 (2)  99.16
xˆ 4 (2)  G2 4  xˆ 3 (3)  99.50

Var[e4 (1)]  Var[e3 (1)]  G02 2  36
Var[e4 (2)]  Var[e3 (2)]  (G02  G12 ) 2  48.96

修正置信区间为：
预测时期修正前置信区间修正后置信区间
四月份（85.36，108.88）
五月份（83.72，111.15）（87.40，110.92）
六月份（81.84，113.35）（85.79，113.21）
4. 预测评价
当有多个时间序列模型通过了检验时，我们该选
择哪一个模型用于预测呢？不能认为拟合优度最高的
模型预测效果就最好。因为预测误差有两种来源，第
一种来源于模型的随机干扰项（模型的设定误差），
干扰项的方差越大，预测误差将越大。预测误差的另
一种来源是模型中系数的估计值与真实参数之间的差
别，即模型中系数估计的精度（抽样误差）。系数估
计的精度越低，预测误差越大。
通常解释变量的个数增多有可能提高拟合优度，
但是解释变量个数增多又会使得需要估计的未知参
数的个数增多，降低了自由度，从而使得系数估计
的精度下降。
在选择用于预测的模型时，常用的做法是将得
到的时间序列样本数据 x1 , , xT , xT 1 , , xT  h 分成两
部分，用样本的前一段数据 x1 , , xT 估计模型，然
后利用所得的估计模型对后一段数据 xT 1 , , xT  h
进行预测，得到预测值 xˆ T 1 , , xˆ T  h 。通过对比实
际值 xT 1 , , xT  h 和预测值 xˆ T 1 , , xˆ T  h ，度量出预
测误差，然后利用预测误差的大小来评价模型的预
测功能。
用估计的模型对样本 x1 , , xT 进行估计得到
的估计值 xˆ 1 , , xˆ T 通常称为模拟值（拟合值），
或称为样本内预测值。称 xˆ T 1 , , xˆ T  h为样本外预
测值。而对 T+h 期以后的预测称为事前预测。为
方便起见，将 xˆ 1 , , xˆ T , xˆ T 1 , , xˆ T  h 统称为预测值。
对于时间序列模型，如果模型的解释变量中
含有因变量的滞后期，则模型的预测方法有两种：
动态（Dynamic）预测和静态（Static）预测。
（1）动态预测:是从预测样本的第T期开始计
算的多步预测，模型中作为解释变量的因变量的滞
后期使用的是它的预测值。
（2）静态预测：是利用滞后因变量的实际值而
不是预测值计算的一步向前预测的结果。
例如，假设有一个样本序列数据：
x1 , , xT , xT 1 , , xT  h
利用前一段数据 x1 , , xT 估计模型AR(2)模型：
X t   0   1 X t 1   2 X t  2   t
得到参数的估计值为 ˆ 0 , ˆ1 , ˆ 2 。则 T+i 期的静态

预测值为：
xˆ T  i  ˆ1 xT  i 1  ˆ 2 xT  i  2 , i  1, 2, ,h
T+i 期的动态预测值为：
 ˆ1 xT  ˆ 2 xT 1 , i  1,

xˆ T  i   ˆ1 xˆ T 1  ˆ 2 xT , i  2,
ˆ xˆ
 1 T  i 1  ˆ 2 xˆ T  i  2 , 2  i  h.
而在 T+h+1 期以后，因为没有实际观测值，所以
没有静态预测值，只能得到动态预测值。
预测误差的度量有多种形式，下面介绍几
种主要的形式。
（1）平均绝对误差（Mean Absolute Error），

记为MAE：
1 T h
MAE   xt  xˆ t
h t T  1
（2）平均相对误差（Mean Absolute Percentage
Error），记为MPE：
1 T  h xt  xˆ t
MPE  
h t T  1 xt
（3）均方误差（Mean Squared Error）或称预
测误差的方差，记为MSE：
1 T h
MSE    xt  xˆ t 
2
h t T  1
（4）均方根误差（Root Mean Squared Error），

记为RMSE：
1 T h
  xt  xt 
2
RMSE  ˆ
h t T  1
（5）泰尔不等系数
（Theil Inequality Coefficient），记为TIC：
1 T h
  xt  xˆ t 
2
h t T  1
TIC 
1 T h 2 1 T h 2

h t T  1
xt 
h t T  1
xˆ t
平均绝对误差（MAE）、均方误差（MSE）和均方
根误差（RMSE）是带有量纲的量，它们受因变量量纲的
影响。而平均相对误差（MPE）和泰尔不等系数（TIC）
是相对量，它们不受因变量量纲的影响。
MAE、MPE、MSE 和 RMSE 的取值范围
为  0,   ，它们的值越小，则意味着预测精度越
高，预测的准确性越高。
泰尔不等系数（TIC）的取值范围在0与1之
间，TIC 的值越小，则意味着预测精度越高。
其极端情况是 TIC =0 ，
表示每一期的预测值都等于实际值，这是一种
完美的预测。
TIC=1 是另一种极端情形，
这时 xˆ t   xt ( t  T , T  1, , T  h) ，表示 xˆ t 与
x t 的变化趋势完全相反，说明预测极不准确。
所以，TIC 越接近 0 说明预测越准确，TIC

越接近 1 表示预测值偏离实际值越远，预测精度
越低。
可以证明，均方误差（MSE）可以做如下分解：
1 T h
  
2
x t  ˆ
x t  ( ˆ
x  x ) 2
 ( s xˆ  s x ) 2
 2(1  r )s xˆ s x
h t T  1
即
MSE  ( xˆ  x )2  ( s xˆ  s x )2  2(1  r )s xˆ s x
其中， xˆ , x 分别表示 x̂ 和 x 的平均值，s xˆ , s x 分别

表示 x̂ 和 x 的标准差， r 表示 x̂ 和 x 的相关系
数。
定义：
( xˆ  x )2
偏倚比例（Bias Proportion）
MSE
偏倚比例度量了预测值的均值与实际值的均
值的偏离程度，用来描述是否存在系统误差。
( s xˆ  s x )2
方差比例（Variance Proportion）
MSE
方差比例度量了预测值的方差与实际值的方差
的偏离程度。
2(1  r ) s xˆ s x
协方差比例（Covariance Proportion）
MSE
协方差比例衡量了非系统预测误差的大小。
显然，偏倚比例+方差比例+协方差比例=1。当预
测结果较好时，偏倚比例和方差比例应该较小，而协
方差比例应该较大。Eviews中提供了以上预测评价指
标。
（五）案例分析
案例：等时间间隔，连续读取 70 个某次化
学反应过程的数据，构成一时间序列（数据见附
录）。试对该序列拟合合适的时间序列模型。
1. 平稳性检验
该时间序列的时序图及自相关图如下：
从时间序列的时序图来看，时间序列基本上
是围绕一条水平直线上下波动，波动幅度在某一
个范围之内，波动幅度不剧烈，并且没有明显的
趋势性或周期性。时间序列的样本自相关图和偏
自相关图显示，滞后 2 阶以后的样本自相关系数
在 2 倍标准误之内，滞后 1 阶以后的样本偏自相
关系数在 2 倍标准误之内，说明时间序列具有明
显的短期相关性。因此，可以判断该时间序列是
平稳的。
2. 白噪声检验
滞后阶数 Q统计量值 P值
6阶 23.916 0.001
12阶 25.942 0.011
滞后6阶和滞后12阶的P值均小于0.05，拒
绝了序列是白噪声的原假设。所以，该时间序
列是平稳而非白噪声序列。
3. 模型识别
从时间序列的样本自相关图和偏自相关图来看，
若将样本自相关系数看成 2 阶截尾，将样本偏自相关
系数看成拖尾，我们可以尝试拟合MA(2)模型；同样
地，若将样本自相关系数看成拖尾，将样本偏自相关
系数看成 1 阶截尾，我们可以尝试拟合 AR(1) 模型；
或者将样本自相关系数和偏自相关系数都看成拖尾，
尝试拟合 ARMA(1,1) 模型。
4. 参数估计及模型检验
模型参数估计及模型检验结果
参数估计参数的显著性检验残差序列的白噪声检验

变量系数标准差 t 统计量值 P值 Q 统计量值 P值
c 51.1638 1.2902 39.6570 0.0000 0.7761（6阶） 0.521
MA(1) -0.3231 0.1210 -2.6694 0.0095 7.7016（12阶） 0.697
MA(2) 0.3313 0.1215 2.5810 0.0121
c 51.2921 0.9318 55.0437 0.0000 5.5311（6阶） 0.401
AR(1) -0.4249 0.1163 -3.6522 0.0005 11.208（12阶） 0.721
c 51.2413 1.0963 46.7418 0.0000 1.1362（6阶） 0.704
AR(1) -0.7734 0.1468 -5.2692 0.0000 7.3223（12阶） 0.839
MA(1) 0.4882 0.2092 2.3339 0.0227
所以，MA(2)、AR(1)和ARMA(1,1)模型均是该序列的有效
拟合模型。
5. 模型筛选
模型 AIC SBC
MA(2) 7.663370 7.759734
AR(1) 7.667111 7.731868*
ARMA(1,1) 7.650628* 7.747763
依据AIC准则，我们应该选择的模型是
ARMA(1,1)模型：
X t  51.2413  0.7734(X t 1  51.2413)   t  0.4882 t 1
X t  90.872  0.7734X t 1   t  0.4882 t 1
 2  117.9483
依据SBC准则应该选择的模型是AR(1)模型：
X t  51.2413  0.4249(X t 1  51.2413)   t
X t  73.0863  0.4249X t 1   t
 2  121.5927
由此可以看出，AIC 准则倾向于选择较多参
数模型，而 SBC 准则倾向于选择较少参数模型
（简练的模型）。
6. 模型预测
AR(1)模型：
X t  73.0863  0.4249X t 1   t
动态（Dynamic）预测：前一期的序列值利
用其预测值计算，样本外预测需要用动态预测。
例如，若利用上述AR(1)模型预测化学序列
第71到76期值，应该用动态预测。
第一步：扩大序列 X 的样本范围1到76
第二步：估计AR(1)模型
第三步：点击 Forecast , 将预测样本范围改
为71到76，选择动态预测，然后点击OK。
预测序列名
可以对预测标
准误命名
第四步：得到预测结果
静态预测：（样本内预测）
AR(1)模型： X t  73.0863  0.4249X t 1   t
第2期预测值： Xˆ 2  73.0863  0.4249X 1
第3期预测值： Xˆ 3  73.0863  0.4249X 2

.............
第71期预测值： Xˆ 71  73.0863  0.4249X 70
第71期以后没有静态预测值。
动态预测：（样本内）
AR(1)模型： X t  73.0863  0.4249X t 1   t
第2期预测值： Xˆ 2  73.0863  0.4249X 1
第3期预测值： Xˆ 3  73.0863  0.4249Xˆ 2

.............
第71期预测值： Xˆ 71  73.0863  0.4249Xˆ 70
动态预测：（样本外）
AR(1)模型： X t  73.0863  0.4249X t 1   t
第71期预测值：Xˆ 71  73.0863  0.4249X 70
第72期预测值：Xˆ 72  73.0863  0.4249Xˆ 71
第73期预测值： Xˆ 73  73.0863  0.4249Xˆ 72
.............

第3章 平稳时间序列分析

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

第3章 平稳时间序列分析

Uploaded by

Copyright:

Available Formats

一阶差分： yt =yt  yt 1

（2） (axt  byt )  axt  byt （a，b为常数 ）；

（3）  ( xt yt )  ( xt ) yt  ( yt ) xt 1

1）有初值 y1 的递归解法

t  F t 11  F tV0  F t 1V1  F t 2V2   FVt 1  Vt

 yt   y1  0  1   t 1   t 

给出初值y-1， y-2，…，y-p以及 0 , 1 , ,  t 的值，

 E  F   p  1 p1  2 p 2    p1   p  0

9. 对于有界序列 { xt } ，若算子   B  , ( B) 满足，

则称算子   B  是算子  ( B ) 的逆算子，记为

 t  t 1   2t  2   3t  3 

AR模型（Auto Regression Model）

MA模型（Moving Average Model）

特别当  0  0 时，称 AR( p ) 为中心化模型。

则 xt  (1  1 B)1  t   t  1 t 1  12 t  2 

Ext  E( t  1 t 1  12 t  2  )0

 cov( t  1 t 1   1k t  k  ,  t  k  1 t  k 1  )

series u=nrnd 5000

smpl @first @first 0

series x=0 -5000

smpl @first+1 @last -10000

series x=-1.1*x(-1)+u -15000

smpl @first 2 -2.0E+12

例如，xt  0.8 xt 1   t 是平稳的。而

同样地，若 2  1 ，可得 1  1 必然成立。所以

12 + 42 >0

从平稳域看  2  1  1.5  1 ，所以该模型非平稳。

问题： xt  0.6 xt 1  0.4 xt  2  0.1 xt  3   t 平稳性？

对于模型 xt  1  0.6 xt 1  0.3 xt  2   t ，则

G p1  1G p 2    p1G0  0

则 xt  (1  0.6B)1  t  (1  0.6B  0.62 B2  ) t

于是： G j  2  0.4 j  0.2 j , j  0,1, 2,

Var ( xt )  Var (1 xt 1   t )

 12Var ( xt 1 )  Var ( t )  21 cov( xt 1 ,  t )

因为，Var ( xt )  Var ( xt 1 ), cov( xt 1 ,  t )  0 ，所以

例如，对于模型： xt  0.6 xt 1   t , Var ( t )  10

k  1:  k  1 k 1  2 k  2    p k  p  0 差分方程

其中 E   t xt   E  t (1 xt 1   2 xt  2   t )   2

所以， xt  2 是通过 xt 1 与 x t 相关的，这种间接

的自相关系数  1 乘以 xt 1与 x t 的自相关系数  1。

【例】求 AR (2) 模型： xt  0.9 xt 1  0.2 xt  2   t

自相关函数给出了Xt 与 Xt-k 的总体相关性，

例如，在 AR(1) 中，Xt 与 Xt-2 间有相关性

kj  k 1, j  kkk 1,k  j , j  1, 2, , k  1

所以，向量  可以被向量组 1 , 2 , ,  p 线性表示。

上述行列式 Dk 的最后一列正好是前 p 个列向

特别当   0 时，称为中心化 MA(q)模型.

Var ( xt )  Var (    t  1 t 1   2 t  2    q t  q )

Var ( xt )  (1  0.62  0.32 )Var ( t )

(1  12    q2 ) 2 , k0

证明： 模型 xt   t  1 t 1 的自相关函数为：

证明： 模型 xt   t  1 t 1   2 t  2 的自相关函数为：

1, k0 1, k0

可逆域： 1 , 2  2  1，且 2  1  1

Iq1  1 Iq 2   q1 I0  0

件是 B) = 0的根（绝对值）必须大于1。不必

条件是 B) = 0的根（绝对值）必须大于1，不必

特别当  0  0 时，称为中心化 ARMA(p, q)模型。

  t  (1  1 ) t 1  1 (1  1 ) t 2  12 (1  1 ) t 3 

 1  (1  1 )B  1 (1  1 )B 2  12 (1  1 )B 3   xt

 xt  (1  1 ) xt 1  1 (1  1 ) xt  2  12 (1  1 ) xt 3 

（1）判断模型 ARMA  2,1 的平稳性。

在模型：xt  0.5 xt 1   t  0.25 t 1 两边乘以 xt  k 取期望

ˆ 2  ˆ0  (ˆ1ˆ1  ˆ 2ˆ2   ˆ pˆ p )

第3章平稳时间序列分析

第3章平稳时间序列分析

（2） (axt  byt )  axt  byt （a，b为常数）；

证明：模型 xt   t  1 t 1 的自相关函数为：

证明：模型 xt   t  1 t 1   2 t  2 的自相关函数为：

预测时期修正前置信区间修正后置信区间

参数估计参数的显著性检验残差序列的白噪声检验