Download as pdf or txt
Download as pdf or txt
You are on page 1of 311

一阶差分: yt =yt  yt 1

p 阶差分 :
 p yt  ( p1 yt )   p1 yt   p1 yt 1 , p  1, 2,

显然有
p
 p yt   ( 1)i C ip yt  i , p  1, 2,
i 0
k步差分:
 k yt  yt  yt  k , k  1, 2,

差分具有如下基本性质:

(1)  (C )  0 (C为常数);

(2) (axt  byt )  axt  byt (a,b为常数 );

(3)  ( xt yt )  ( xt ) yt  ( yt ) xt 1

 yt  ( yt ) x t  1  ( x t ) y t  1
(4)   
 xt  xt xt 1
☆ 齐次线性差分方程

1. 齐次线性差分方程的定义:
yt  a1 yt 1  a2 yt  2   a p yt  p  0 (1)

称为 p 阶常系数线性齐次差分方程.
2. 齐次线性差分方程的通解

(1)特征方程:称方程
 p  a1 p1  a2 p 2   ap  0

为齐次线性差分方程(1)的特征方程。特征方
程的根称为特征根,记作 1 , 2 , ,  p 。
(2)齐次线性差分方程的通解:

1)特征方程有不相等实数根场合

yt  c11t  c22t   c p  pt
2)特征方程有 d 重实根场合
yt  (c1  c2 t   cd t d 1 )1t  cd 1dt 1   c p  pt

3)特征方程有复数根场合
yt  r t (c1 cos  t  c2 sin  t )  c33t  c44t   c p  pt

其中,

a
r  a  b ,   arccos
2 2

r
☆ 非齐次线性差分方程

1. 非齐次线性差分方程的定义
yt  a1 yt 1  a2 yt 2   a p yt  p  ut (2)

称为 p 阶常系数线性非齐次差分方程.

2. 非齐次线性差分方程的通解

非齐次线性差分方程的通解
= 对应的齐次线性差分方程的通解
+非齐次线性差分方程本身的一个特解
3. 线性非齐次差分方程的特解

★ 一阶线性非齐次差分方程的特解

yt   yt  1   t

1)有初值 y1 的递归解法


y0   y1   0
y1   y0  1
y2   y1   2

yt   yt 1  t
得到
yt   t 1 y1   t0   t 11    t 1   t
t
  t 1 y1    t  j j
j0

给出初值y-1以及 0 , 1 , ,  t 的值,即可得到yt 。
若从 t 期开始迭代,
yt   yt  1   t
y t  1   yt   t  1

yt  2   yt  1   t  2
.........
yt  j   yt  j 1  t  j
于是
yt  j   j 1 yt 1   jt   j 1t 1  ...   jt  j 1  t  j

 t 对 yt  j 的影响(动态乘子)为
yt  j
j
t
★ p 阶线性非齐次差分方程的特解

yt  1 yt 1  2 yt 2    p yt  p  t

将上述方程改写为

 yt  1 yt 1  2 yt  2    p yt  p   t

 yt  1  yt  1

 yt  2  yt  2


 yt  p  1  yt  p  1
写成矩阵形式
 yt  1 2 3  p 1  p   yt 1  t 
 y   y   
 t 1   1 0 0 0 0   t 2   0 
 yt  2    0 1 0 0 0   yt  3    0 
      
      
 yt  p  1   0 0 0 0   yt  p   0 
   1

 yt  1 2 3  p 1  p   t 
 y    0
 t  1   1 0 0 0 0  
 t   yt  2  F   0 1 0 0 0 , Vt   0 
     
     
 yt  p  1  0 0 0 0   0 
   1
则原p阶差分方程变为一阶向量差分方程
 t  F  t 1  Vt
参照一阶向量差分方程的递归解法有

t  F t 11  F tV0  F t 1V1  F t 2V2   FVt 1  Vt

 yt   y1  0  1   t 1   t 


 y  y  0 0  0  0
 t 1   2         
 y t  2   F t  1  y 3   F t  0 F  0 
t 1
F 0  0 
           
           
 yt  p  1   y p   0   0   0   0 
   
上述系统的第一个方程代表了yt 的值. 令


F t  f ij( t )  p p


yt  f11( t 1) y1  f12( t 1) y2   f1(pt 1) y p
 f11( t )0  f11( t 1)1   f11(1) t 1   t

给出初值y-1, y-2,…,y-p以及 0 , 1 , ,  t 的值,


即可得到yt。

定理:矩阵 F 的特征根满足的特征方程为

 E  F   p  1 p1  2 p 2    p1   p  0


★ 时间序列模型与线性差分方程

线性差分方程在时间序列分析中有重要的应用。
常用的时间序列模型和某些模型自协方差函数和自
相关函数都可视为线性差分方程,我们可以利用差
分方程来研究时间序列模型及其自协方差函数和自
相关函数的性质。
(一)定义

设 yt 是一时间序列,定义算子 B

Byt  yt 1

B( Byt )  B( yt 1 )  yt  2

记为 B2 yt  yt  2 。一般地,对任意整数 k,定义

B k yt  yt  k
(二)延迟算子的性质
1. B 0  1, Bc  c
2. B(c  xt )  c  B( xt )  c  xt 1 , c为任意常数
3. B( xt  yt )  xt 1  yt 1

4. ( Bm  Bn ) xt  Bm xt  Bn xt  xt m  xt n

5. Bm Bn xt  Bn Bm xt  Bm n xt  xt m n
n
6. (1  B)   ( 1)n Cni B i
n

i 0

7.   B  [  B  xt ]    B  [  B  xt ]

其中,   z  ,   z  为多项式。
8. 若c为常数,则   B  c  c  1

9. 对于有界序列 { xt } ,若算子   B  , ( B) 满足,

  B  ( B ) xt  xt

则称算子   B  是算子  ( B ) 的逆算子,记为


1
  B   ( ( B)) 
1

 ( B)

若   1 ,则
(1   B )1  1   B   2 B 2 
(三)用延迟算子表示差分运算

p 阶差分
p
 p xt  (1  B ) p xt   ( 1) p C ip xt  i
i 0

k 步差分
 k xt  xt  xt k  (1  Bk ) xt
(四)利用延迟算子解差分方程

1、一阶差分方程
yt   yt  1   t

(1   B ) yt   t

yt  (1   B)1t

 t  t 1   2t  2   3t  3 


2、二阶差分方程

yt  1 yt 1  2 yt  2  t

(1  1 B  2 B2 ) yt  t

若有 (1  1 B  2 B 2 )   1  1 B  1  2 B 
yt  (1  1 B  2 B 2 )1  t
1
 t
 1  1 B 1  2 B 
若 1  2 ,则有
1 c1 c2
[  ]
1  1 B 1  2 B  1  1 B 1  2 B
1 2
其中 c1  , c2  
1  2 1  2

1
则 yt  t
 1  1 B  1  2 B 
c1 c2
[  ] t
1  1 B 1  2 B
 [c1  c2 ] t  [c11  c22 ] t 1  [c112  c222 ] t  2 
在本节,我们将如下讨论三种形式的时间
序列模型:

AR模型(Auto Regression Model)

MA模型(Moving Average Model)

ARMA模型(Auto Regression
Moving Average model)
一、AR模型(Auto Regression Model)
(一)AR模型定义
具有如下结构的模型称为 p 阶自回归模型,
简记为 AR( p ).
 x t   0   1 x t 1   2 x t  2    p xt  p   t

 p  0

 E ( t )  0,Var ( t )    , E ( t  s )  0, s  t
2

 E ( x  )  0, k  1
 t k t

特别当  0  0 时,称 AR( p ) 为中心化模型。


AR(p)序列中心化变换

对于非中心化序列

xt  0  1 xt 1  2 xt 2    p xt  p   t

作变换 0

1  1  p
yt  x t  

则原序列即化为中心化序列

yt  1 yt 1  2 yt  2    p yt  p   t
注意到:
cov( xt , xs )  cov( yt , ys )

x x   y y
t s t s

所以,以后我们重点讨论中心化时间序列。

AR模型的算子表示:

令 ( B )  1  1 B   2 B 2    pB p

则 AR( p ) 模型可表示为

( B ) x t   t
(二)AR模型平稳性判别

1. 判别原因:
要拟合一个平稳序列,用来拟合的模型显然
也应该是平稳的。 AR 模型是常用的平稳序列的
拟合模型之一,但并非所有的 AR 模型都是平稳
的 ,而非平稳的AR模型在实际应用中是没有意义
的。
例如:AR(1)过程:
xt   1 xt 1   t (*)
用滞后算子可表示为:
(1  1 B ) xt   t

则 xt  (1  1 B)1  t   t  1 t 1  12 t  2 

是差分方程(*) 的一个特解。

当 1  1 时,级数   j
1 收敛,表明序列
j0

xt   t  1 t 1  12 t  2 

是平稳序列。
实际上,当 1  1 时,

Ext  E( t  1 t 1  12 t  2  )0

 2
D( xt )  D( t  1 t 1  12 t  2  )  
1  12

cov( xt , xt  k )

 cov( t  1 t 1   1k t  k  ,  t  k  1 t  k 1  )

 2
 1k 2  1k  2 2  1k  4 2   1k 
1  12
例3.1:考察如下四个模型的平稳性

(1) xt  0.8 xt 1   t

(2) xt  1.1 xt 1   t

(3) xt  xt 1  0.5 xt  2   t

(4) xt  xt 1  0.5 xt 1   t
(1)生成平稳序列 xt = 0.8xt-1+ ut, ut  IID(0, 1)
的 Eviews程序:
6
smpl @first @last
x=0.8x(-1)+u
series u=nrnd 4
smpl @first @first
series x=0 2
smpl @first+1 @last
series x=0.8*x(-1)+u 0

-2

-4
10 20 30 40 50 60 70 80 90 100

X
(2)生成平稳序列 xt = xt-1-0.5xt-2+ ut, ut  IID(0, 1)
的 Eviews程序:
4
x=x(-1)-0.5x(-2)+u
smpl 1 100 3
genr u=nrnd 2
smpl 1 2 1
genr x=0
0
smpl 2 100
genr x=x(-1)-0.5*x(-2)+u -1

-2

-3

-4
10 20 30 40 50 60 70 80 90 100

X
(3)生成非平稳序列 xt = -1.1xt-1+ ut, ut  IID(0, 1) 的
Eviews程序:

20000

15000
x=-1.1x(-1)+u
smpl @first @last 10000

series u=nrnd 5000

smpl @first @first 0

series x=0 -5000

smpl @first+1 @last -10000

series x=-1.1*x(-1)+u -15000

-20000
10 20 30 40 50 60 70 80 90 100

X
(4)生成非平稳序列 xt = xt-1+0.5xt-2+ ut, ut  IID(0, 1)
的 Eviews程序:

1.0E+12
x=x(-1)+0.5x(-2)+u
0.0E+00
smpl @first @last
series u=nrnd -1.0E+12

smpl @first 2 -2.0E+12


series x=0
-3.0E+12
smpl @first+2 @last
series x=x(-1)+0.5*x(-2)+u -4.0E+12

-5.0E+12
10 20 30 40 50 60 70 80 90 100

从时序图上可以看出,(1)(3)模型平稳,
(2)(4)模型非平稳。
2. AR模型平稳性常用判别方法

p 阶自回归模型:
xt  1 xt 1  2 xt  2    p xt  p   t

的特征方程为:
 p   1 p  1   2  p  2  p  0
算子方程为:
1  1 B   2 B 2    pB p  0

结论: AR模型特征方程的根与算子方程的根
互为倒数。
(1) AR模型平稳性的特征根判别定理:

定理1 AR(p)模型平稳的充要条件是它的p个
特征根都在单位圆内。

我们以 AR(1)模型作简单说明:

例如,对于中心化AR(1)模型
xt   1 xt 1   t

将上述模型视作一阶差分方程,其特解为
xt   t  1 t 1  12 t  2 

其对应的齐次差分方程的通解为
xt  c1t
则AR(1)过程的通解为
xt  c1t   t  1 t 1  12 t  2 

要使中心化AR(1)模型平稳,即要求对任意的
常数 c,有
lim E ( xt )  lim c1t =0
t  t 

上式成立的等价条件是:
1  1

而  1 即为AR(1)模型的特征根。
定理2 AR(p)模型平稳的充要条件是该模型
的算子方程的根都在单位圆外。
【例】下面的AR(2)是否满足平稳条件?

xt  0.6 xt 1  0.08 xt  2   t

【解】特征方程为:

 2  0.6  0.08  0

其特征根分别为0.2和0.4,都在单位圆内,所以
满足平稳条件。
【例】下面的AR(2)是否满足平稳条件?
xt  xt 1 +0.5 xt  2   t

【解】特征方程为:

 2    0.5  0

1 1 2 1 3 1 1 2 1 3
1    , 2   
2 2 2 2 2 2

因为 1  1 ,所以该模型非平稳。
(2) AR模型平稳性的平稳域判别方法:

AR(p)模型平稳域为:
{1 ,  2 , ,  p 特征方程的根都在单位圆内}

{1 ,  2 , ,  p 算子方程的根都在单位圆外}
【例】 AR(1)模型平稳域

xt   1 xt 1   t

特征根为    1 ,平稳条件   1  1

平稳域为: 1 ; 1  1

例如,xt  0.8 xt 1   t 是平稳的。而

xt  1.1 xt 1   t 是非平稳的。
【例】 AR(2)模型平稳域

xt   1 xt 1   2 xt  2   t
特征根为
1  12  4 2 1  12  4 2
1  , 2 
2 2
因为 1  2  1 , 12   2

由平稳性条件 1  1, 2  1 可得

AR(2)模型平稳域为:
{ 1 ,  2  2  1, 且  2   1  1}
 1  1,  2  1  { 1 ,  2  2  1, 且  2   1  1}

证明:若有  1  1,  2  1 ,

注意到:  2   12
 2  1   12  1  2  1  (1  1 )(1  2 )
 2  1   12  1  2  1  (1  1 )(1  2 )

显然有
 2  1

 1  1,  2  1   2  1  1
    1
 2 1
反之,若条件
 2  1

 2  1  1
    1
 2 1

成立,因为  2  12  1 ,则 1  1, 2  1 两
个式子中至少有一个成立,

假设 1  1 ,即 1  1  1 ,由
 2  1  1  (1  1 )(1  2 )  1
 (1  1 )(1  2 )  0
 1  2  0  2  1
再由
 2  1  1  (1  1 )(1  2 )  1
 (1  1 )(1  2 )  0
 1  2  0  2  1
于是可得
2  1

同样地,若 2  1 ,可得 1  1 必然成立。所以


 2  1

 2  1  1   1  1,  2  1
    1
 2 1
平稳域是一个三角形区域。见下图阴影部分。

12 + 42 >0

12 + 42 = 0
12 + 42 < 0
平稳AR(2) 过程1, 2取值域(阴影部分)
【例】AR(2)模型:xt  xt 1 +0.5 xt  2   t

1 1 2 1 3
从特征根看 1    1
2 2 2

所以该模型非平稳。

从平稳域看  2  1  1.5  1 ,所以该模型非平稳。


(3) 高阶AR(p)模型平稳性的判别方法:
对高阶自回模型AR(p)来说,多数情况下没有必
要直接计算其特征方程的特征根,但有一些有用的
规则可用来检验高阶自回归模型的稳定性:

(1)AR(p)模型稳定的必要条件是:
1  2  p  1
(2)AR(p) 模型稳定的充分条件是:
1   2   p  1

(3)如果 1  2    p  1 ,则至少有一个
特征根等于1, AR(p) 模型不平稳。
例如,
xt  0.6 xt 1  0.2 xt  2  0.1 xt  3   t

1   2   3  0.9  1

模型平稳。
xt  0.6 xt 1  0.4 xt  2  0.1 xt  3   t

1   2   3  1.1  1

模型非平稳。

问题: xt  0.6 xt 1  0.4 xt  2  0.1 xt  3   t 平稳性?


(三)平稳AR模型的统计性质

1、均值

如果AR(p)模型满足平稳性条件,则有
Ext  E(0  1 xt 1    p xt  p   t )

根据平稳序列均值为常数,且 { t } 为白噪声序
列,有
Ext   , E ( t )  0 , t  T

推导出 0

1  1  p
例如,对于模型 xt  0.6 xt 1   t ,则

E ( xt )  0

对于模型 xt  1  0.6 xt 1   t ,则

1
E ( xt )   2.5
1  0.6

对于模型 xt  1  0.6 xt 1  0.3 xt  2   t ,则

1
E ( xt )   10
1  0.6  0.3
2、方差

(1)Green函数定义

将平稳的AR(p)模型表示成如下的传递形式
t p
ki p 
xt    t   ki (i B) j  t
( B) i 1 1  i B i 1 j  0

 p  
  ki i j t  j   G j t  j   G j B j t G( B ) t
j  0 i 1 j 0 j 0

其中系数 {G j , j  1, 2, } 称为Green函数
AR(p)模型: ( B ) xt   t
 ( B )G ( B ) t   t
传递形式: xt  G ( B ) t
 ( B )G ( B )  1

利用待定系数法,即可得到Green函数。
(1  1 B   2 B 2    p B p )(G0  G1 B  G2 B 2  )1
G0  1
G1  1G0  0
确定初值
G2  1G1   2G0  0

G p1  1G p 2    p1G0  0


k p Gk  1Gk 1    pGk  p  0 差分方程
【例】求下列模型的Green函数

(1) xt  0.6 xt 1   t
(2) xt  0.6 xt 1  0.08 xt  2   t

【解】(1)将模型表示为算子形式
(1  0.6 B ) xt   t

则 xt  (1  0.6B)1  t  (1  0.6B  0.62 B2  ) t



  0.6 j  t  j
j0

所以, Green函数为:
G j  0.6 j , j  0,1, 2,
(2)将模型表示为算子形式
(1  0.6B  0.08B2 ) xt   t
(1  0.2 B )(1  0.4 B ) xt   t
1
xt  t
(1  0.2 B)(1  0.4 B)

 2 1 
   t
 1  0.4 B 1  0.2 B 
 2(1  0.4 B  0.42 B 2  ) t
 (1  0.2 B  0.22 B 2  ) t
  1  0.6B  (2  0.42  0.22 ) B 2   t

于是: G j  2  0.4 j  0.2 j , j  0,1, 2,


(2)平稳的AR(p)模型的方差

由平稳AR模型的传递形式

xt   G j  t  j
j 0

两边求方差得

Var ( xt )   G 2j  2 , G j为Green函数
j 0

Gk  1Gk 1   k  0
p 
 Gk   c j  , (  j  1)
k
j
  G 2j  
j 1 j0
【例】 求平稳AR(1) xt  1 xt 1   t 模型的方差

【解】平稳AR(1)模型的传递形式为
t  
xt    (1 B )i  t   1i  t  i
1  1 B i  0 i 0

Green函数为 G j  1 j , j  0,1,

平稳AR(1)模型的方差为
 
 2
Var ( xt )   G 2j Var ( t )   12 j 2  

j 0 j 0 1   2
1
也可用以下方法计算

Var ( xt )  Var (1 xt 1   t )

 12Var ( xt 1 )  Var ( t )  21 cov( xt 1 ,  t )

因为,Var ( xt )  Var ( xt 1 ), cov( xt 1 ,  t )  0 ,所以


Var ( t )  2
Var ( xt )  
1  1
2
1  12

例如,对于模型: xt  0.6 xt 1   t , Var ( t )  10


Var ( t ) 10
Var ( xt )    15.625
1  1
2
1  0.6 2
3、 AR(p)模型自协方差函数

因为 E ( t xt )  E[ t (1 xt 1   2 xt  2    p xt  p   t )]   2 ,

E ( t xt  k )  0, k  1

又 E[( xt  1 xt 1  2 xt 2    p xt  p ) xt  k ]  E( t xt  k )

k  0:  0  1 1   2 2    p p   2
k  1:  1  1 0  2 1    p p1  0
k  2:  2  1 1  2 0    p p2  0 Yule-Walker
......... ......... ......... ......... ......... Equation
k  p:  p  1 p1  2 p2    p 0  0

k  1:  k  1 k 1  2 k  2    p k  p  0 差分方程


矩阵形式为:

 1   0 1  p 1    1   0 
      
 2    1 0  p 2    2   0 
       
      
  p    p 1  p  2 0    p   0 

 1   0 1  p 1    1 
    
  2    1 0  p 2    2 
     
    
  p    p 1  p  2  0    p 
【例】 求平稳AR(1) xt  1 xt 1   t 模型的自
协方差函数。

差分方程:  k  1 k 1  0
递推公式:  k  1 k 1  1  0
k

平稳AR(1)模型的方差为:
 2
0 
1  12
自协方差函数为:
 2
 k  1k  2 , k  1
1  1
【例】 求平稳AR(2): xt  1 xt 1   2 xt  2   t
模型的协方差。
 0  E  xt   E ( xt xt )  E[(1 xt 1   2 xt  2   t ) xt ]
2

 1 E  xt 1 xt    2 E  x t  2 x t   E   t x t 

 1 1  2 2   2

其中 E   t xt   E  t (1 xt 1   2 xt  2   t )   2

差分方程:  k  1 k 1   2 k  2  0
递推公式:  k  1 k 1   2 k  2
k  1:  1  1 0   2 1
k  2:  2  1 1   2 0
求解方程组:
 0  1 1  2 2   2

 1  1 0   2 1
      
 2 1 1 2 0

得到

0 
 1   2   2
 2
1    (1   2 ) 2
  2

1 

1 0
1 
1  2
所以,平稳AR(2)模型的协方差函数递推公式为

 1  2
  
 0 (1   )(1     )(1     ) 
2

 2 1 2 1 2

 1 0
 1 
 1  2
       ,k  2
1 k 1 2 k 2
 k

4、自相关系数

(1)自相关系数的定义:
k
k  特别 0  1
0
(2)平稳AR(P)模型的自相关系数递推公式:
k  1 k 1  2 k  2    p k  p , k 1 差分方程

k  1: 1  1  2 1    p  p1
k  2: 2  1 1  2    p  p 2 Yule-Walker
......... ......... ......... ......... ......... Equation
k  p:  p  1  p1  2  p 2    p
矩阵形式:

 1   1 1  p 1    1 
    
  2    1 1  p 2    2  Yule-Walker
     Equation
    
  p    p 1  p 2 1    p 
(3)常用AR模型自相关系数递推公式

AR(1)模型

k  1k , k0

AR(2)模型

1, k0

 1
k   k 1
1  2
     k2
 1 k 1 2 k 2
说明:在AR(1)模型中,即使 xt  2 没有直接
出现在模型中, xt  2 和 x t 也是相关的。因为

xt 1   1 xt  2   t 1

所以, xt  2 是通过 xt 1 与 x t 相关的,这种间接


相关出现在任何AR模型中。
xt  2 与 x t 的自相关系数  2 等于 xt  2 与 xt 1

的自相关系数  1 乘以 xt 1与 x t 的自相关系数  1。



2  ( 1 )2
例如,AR(1)模型 xt  0.8 xt 1   t 的自相关系数为
k  0.8k , k  0

【例】求 AR (2) 模型: xt  0.9 xt 1  0.2 xt  2   t


的自相关系数。

【解】AR(2) 模型的自相关系数满足的Yule-
Walker方程为:
 k  0.9  k 1  0.2  k  2  0

此差分方程的通解为:
k  C1 0.5k  C2 0.4k ( C1 , C 2 为任意常数)
根据初值:
  0  1,

 1 0.9 3
 1  1    1  0.2  4
 2

7 5
可求出, C1  , C 2  
2 2

于是该AR(2)模型的自相关系数为:

7 5 k
 k   0.5  0.4 ,
k
k0
2 2
5、平稳AR(p)模型自相关系数的性质
(1)拖尾性
p
 k   ci ik , c1 , c2 , , c p不能恒等于零
i 1

(2)呈负指数衰减
p
 k   ci ik  0
i 1

拖尾性说明 xt 之前的每一个序列值 xt 1 , xt  2 ,
都会对 xt 构成影响,但因为自相关系数呈负指数
衰减,所以,间隔较远的序列值对现时值的影响很
小,具有所谓的“短期相关性”。
三种平稳模型:
模型1: xt  xt 1  0.24 xt  2   t
6
x=x(-1)-0.24*x(-2)+u
4

-2

-4

-6

-8
50 100 150 200 250 300

1  0.4, 2  0.6
k  c1 0.4k  c2 0.6k
模型2: yt  1.2 yt 1  0.36 yt  2   t
8
x=1.2*x(-1)-0.36*x(-2)+u

-4

-8

-12
50 100 150 200 250 300

1  2  0.6
k  c1 0.6k  c2k 0.6k
模型3:zt  zt 1  0.5 zt  2   t
4
z=z(-1)-0.5*z(-2)
3
2

1
0
-1

-2
-3
-4
-5
50 100 150 200 250 300

1 i 1 i
1  , 2 
2 2
k  r k (c1 cos(k )  c2 sin(k ))
2 k k k 
k  ( )  c1 cos( )  c2 sin( ) 
2  4 4 
6、偏自相关函数

自相关函数给出了Xt 与 Xt-k 的总体相关性,


但总体相关性可能掩盖了变量间完全不同的相关
关系。

例如,在 AR(1) 中,Xt 与 Xt-2 间有相关性


可能主要是由于它们各自与 Xt-1 间的相关性带
来的。即自相关函数中包含了这种所有的“间接”
相关。
与之相反,Xt与Xt-k间的偏自相关函数

(partial autocorrelation,简记为PACF)则是消除

了中间变量Xt-1,…,Xt-k+1 带来的间接相关后的

直接相关性,它是在已知序列值Xt-1,…,Xt-k+1

的条件下,Xt与Xt-k间关系的度量。
定义:对于平稳 AR(p) 序列,所谓滞后 k 偏自
相关系数就是指在给定中间k-1个随机变量
xt 1 , xt  2 , , xt  k  1

的条件下,或者说,在剔除了中间k-1个随机变量的
干扰之后, xt  k 对 x t 影响的相关度量。用数学语言
描述就是:
ˆ )( x  Ex
E[( xt  Ex ˆ
t  k )]
 x ,x x  t t k
t t k t 1 , , x t  k 1
E[( x  Ex ˆ )2
t k t k

其中: ˆ  E( x x ,
Ex , xt  k 1 )
t t t 1

ˆ
Ex t  k  E ( xt  k xt 1 , , xt  k  1 )
7、偏自相关系数的计算

(1)直接利用回归方法计算
滞后 k 偏自相关系数实际上就等于k阶自回归
模型第个 k 回归系数的值。

首先将序列中心化,作如下形式的回归

xt  11 xt 1   t
xt   21 xt 1   22 xt  2   t

xt   k 1 x t 1   k 2 xt  2    kk xt  k   t
注意到:
xt  11 xt 1   t
xt   21 xt 1   22 xt  2   t

xt   k 1 xt 1    k ( k 1) xt  ( k 1)   kk xt  k   t

所以,  kk 即为剔除了中间k-1个随机变量的干扰
之后,xt  k 与 xt 的相关系数,即 xt  k 与 xt 的 偏
自相关系数。
(2)利用Yule-Walker方程计算
利用回归方程
xt   k 1 xt 1   k 2 xt  2    kk xt  k   t

可得如下Yule-Walker方程:
 1   k 1  0   k 2 1    kk  k 1
         
 2 k1 1 k2 0 kk k  2


  k   k 1  k 1   k 2  k  2    kk  0

 1    0 1  k 1    k 1 
  
  2    1 0  k  2    k 2 
    
    
  k    k 1 k 2  0    kk 
当 k  1 时, Yule-Walker方程为

11  1

当 k  2 时, Yule-Walker方程为

 1   21  0   22 1  1    0 1    21 
  
  2   21 1   22  0   2   1  0    22 

0 1 1 1
1 2 1  2  2  ( 1 )2
 22   
0 1 1 1 1  ( 1 )2
1 0 1 1
当 k  3 时, Yule-Walker方程为
 1   31  0   32 1   33  2  1    0 1  2    31 
     
  2   31 1   32  0   33 1   2    1 0 1    32 
             1  0    33 
 3 31 2 32 1 33 0  3  2

0 1 1
1 0 2
2 1 3
 33 
0 1 2
1 0 1
2 1 0
一般地:利用Cramer法则求解
Yule-Walker方程可得:

Dk
 kk 
D
1 1 1
1 1  k 1
1 1 2
1 1 k 2 Dk 
D ,
 k 1  k  2 k
 k 1 k2 1

T
D 实际上就是向量 ( xt 1 , xt  2 , , xt k ) 的协方
差矩阵的行列式。
(3)利用Levinson递推公式计算

 1
 1   , k 1
 0

 k 1
 kk    k    k 1, j  k  j
 j 1
, k 1
 k  1

  0    k 1, j  j
 j 1

kj  k 1, j  kkk 1,k  j , j  1, 2, , k  1


或写成
 1
 1   , k 1
 0

 k 1
 kk    k    k 1, j  k  j
 j 1
, k 1
 k  1

 1    k 1, j  j
 j 1

其中
kj  k 1, j  kkk 1,k  j , j  1, 2, ,k 1
8、平稳AR(p)模型偏自相关系数的截尾性
AR(p)模型偏自相关系数 p 阶截尾,这是因为
对于AR(p)模型:
xt  0  1 xt 1  2 xt 2    p xt  p   t

xt  k ( k  p ) 与 xt 之间不存在直接相关。所以

 kk  0 , k  p

平稳AR(p)模型偏自相关系数的截尾性是AR
模型所具有的一个重要特性,它可以帮助我们识
别AR模型。
AR(p)模型偏自相关系数的截尾性的证明:

【证】对于平稳的AR(p)模型:
xt  1 xt 1  2 xt  2    p xt  p   t

有如下的Yule-Walker方程:
 j  1  j 1  2  j 2    p  j p , j  1, 2, ,k

 1   1 1 2 ...  p 1   1 
    1 ...  p  2 
  
 2    1 1  2 
即  ...   ... ... ... ... ...   ... 
     
  k    k 1 k 2 k 3 ...  p  k 
k p
 p 
记上式左边的向量为  ,右边系数矩阵中的列
向量为  i ( i  1, 2, , p) ,即

 1    i 1 
   
 2  
 ,  i   i  2  ( i  1, 2, , p)
   
   
 k   i k 
则有:   11  22    p p

所以,向量  可以被向量组 1 , 2 , ,  p 线性表示。


当 k  p 时有,
1 1  p 1 1
1 1  p 2 2
Dk 
... ... ... ... ... ...
 k 1  k  2  p k k

上述行列式 Dk 的最后一列正好是前 p 个列向


量的线性组合,于是有Dk=0。

所以,当 k  p 时有,

Dk
 kk  0
D
例如,对于AR(2)模型
xt   1 xt 1   2 xt  2   t

有如下的Yule-Walker方程:
 k   1  k 1   2  k  2 , k 1
1
当 k  1 时, 11  1  1  
2

当 k  2 时, Yule-Walker方程为:
0 1
 1   1  0   2 1 1  2  2  ( 1 )2
  22    2
  2   1 1   2  0 0 1 1  ( 1 ) 2

1 0
当 k  3 时, Yule-Walker方程为:

 1   1  0   2 1  1   0   1 
      
  2   1 1   2  0   2    1  1    2   0 
            
 3 1 2 2 1  3  2  1

0 1 1
1 0 2
2 1 3
 33  0
0 1 2
1 0 1
2 1 0
当 k  4 时, Yule-Walker方程为:
 1   1  0   2 1  1   0   1 
            
 2   0 

1 1 2 0
 2
 1  1
 2 
 3   
1 2   
2 1  3   2   1 
  4  1  3   2  2      
 4   3   2 
0 1 2 1
1 0 1 2
可以证明:
2 1 0 3
3 2 1 4  kk  0, k  3
 44  0
0 1 2 3
1 0 1 2
2 1 0 1
3 2 1 0
9、常用AR模型偏自相关系数公式
AR(1)模型: xt  1 xt 1   t
11  1  1 ,
 kk  0,(k  2)

AR(2)模型: xt  1 xt 1   2 xt  2   t

1
11  1  ,
1  2
 2  ( 1 ) 2
 22    2 ,(  2  1 1   2  0 )
1  ( 1 ) 2

 kk  0,( k  3)
二、MA模型(Moving Average Model)

(一)MA模型的定义
具有如下结构的模型称为q 阶移动平均模型,
简记为MA(q).

 xt     t  1 t 1   2 t  2    q t  q

 q  0

 E ( t )  0,Var (  t )    , E ( t  s )  0, s  t
2

特别当   0 时,称为中心化 MA(q)模型.


利用延迟算子,中心化MA(q)模型又可以简记为:

xt  ( B ) t

其中, ( B ) 是 q 阶移动平均系数多项式:

( B )  1  1 B   2 B 2   q Bq

为了以后识别一个模型是否是移动平均模型
MA(q),下面讨论MA模型的统计性质.
(二)MA模型的统计性质

(1)常数均值

(   t  1 t 1   2 t  2 
Ext  E   q t  q)


(2)常数方差

Var ( xt )  Var (    t  1 t 1   2 t  2    q t  q )


 (1  12    q2 ) 2
例如,MA(2)模型:

xt  1   t  0.6 t 1  0.3 t  2

Ext  1

Var ( xt )  (1  0.62  0.32 )Var ( t )

 1.45 2
(3)MA模型的自协方差函数

(1  12    q2 ) 2 , k0



 k  (  k  1 k 1   2 k  2    q  k q ) 2 , 1  k  q

 0, kq

结论:MA(q)自协方差函数只与滞后的阶数
有关,且q 阶截尾。所以MA(q)模型一定是平稳的。
(4)MA模型的自相关函数

1, k0

  k  1 k 1   2 k  2    q  k q
k   , 1 k  q
 1  1    q
2 2

 0, kq

结论:MA(q)自相关系数q 阶截尾
(5) 常用MA模型的自相关系数

MA(1)模型 MA(2)模型

1, k0
1, k0     
  1 2 1 22 , k 1
 1  1  1   2
k   , k 1 k  
 1  1   2
2

, k2
 0 , k2  1  1   2
2 2


 0, k3
1
【例】证明MA模型 xt   t  1 t 1 与 xt   t   t 1
1
有相同的自相关函数。

证明: 模型 xt   t  1 t 1 的自相关函数为:

1, k0

 1
k   , k 1
 1  1
2

 0 , k2
1
模型 xt   t   t 1 的自相关函数为:
1

1, k0
 1,
 1 k0
1 
  1
k   , k 1  , k 1
 1  ( 1 )2  1  1
2

 1  0 , k2

0 , k2

可见,上面两个MA(1)模型的自相关函数相同。
【例】证明MA模型 xt   t  1 t 1   2 t  2 与模型
1 1
xt   t   t 1   t  2 有相同的自相关函数。
2 2

证明: 模型 xt   t  1 t 1   2 t  2 的自相关函数为:

1, k0 1, k0


    (  )     
 1 21 22 , k 1  1 2 1 22 , k 1
 1  1   2  1  1   2
k   
 (  2 ) , k2  2
 1  12   22 , k2
 1  1   2
2 2
 
 0, k3  0, k3
1 1
模型 xt   t   t 1   t  2 的自相关函数为:
2 2
1 1 1
   ( )
2 2 2 1  1 2
1  
1 2 1 2 1  1   2
2 2
1  ( )  ( )
2 2
1
(  )
2 2
2  
1 2 1 2 1  12   22
1  ( )  ( )
2 2

所以,上面两个MA(2)模型的自相关函数相同。
(三)MA模型的可逆性

由上例可以看出,不同的MA模型可能具有完
全相同的自相关系数,为了保证自相关系数给定一
个自相关函数能够对应惟一的MA模型,这就要求
我们给模型增加约束条件,这个约束条称为件MA
模型的可逆性条件。
1
对于MA(1)模型 xt   t  1 t 1 与 xt   t   t 1
1

模型1: xt   t  1 t 1   t 
xt
1  1 B
  t  (1  1B  1 B  ) xt
2 2

无穷阶
AR模型
xt
1
模型2: xt   t   t 1  t 
1 1
1 B
1
1 1 2
  t  (1  B  2 B  ) xt
1 1
无穷阶
AR模型
当 1  1 时,模型1转化的无穷阶AR模型:

 t  (1  1 B  12 B2  ) xt

是收敛的,而模型2转化的无穷阶AR模型:

1 1 2
 t  (1  B  2 B  ) xt
1 1

是发散的。
(1) MA模型可逆性的定义

定义:若一个MA模型能够表示成为收敛的AR
模型形式,那么该MA模型称为可逆MA模型。

意义:可以保证一个自相关系数列唯一对应一
个可逆MA模型。
(2)MA模型的可逆条件

定理:MA(q)模型可逆的充要条件是:

MA(q)模型的特征方程:
 q   1 q  1   2  q  2   q  0

的根都在单位圆内。

等价条件是算子多项式方程:

1  1 B   2 B 2   q Bq  0

的根都在单位圆外。
类似平稳域的讨论,我们也可以讨论MA模
型的可逆域。

MA(1)模型: xt   t  1 t 1

可逆域:  ; 
1 1  1

MA(2)模型: xt   t  1 t 1   2 t  2

可逆域: 1 , 2  2  1,且 2  1  1


(3)MA模型逆函数的递推公式

若MA模型可逆,则MA模型可表示为:

 t  I ( B ) xt   I j xt  j
j0

则  t   I j xt  j 称为MA模型的可逆表示。
j0

其中系数 { I j , j  1, 2, } 称为逆函数。
由于
 xt  ( B ) t
  ( B ) I ( B ) x t  x t
 t  I ( B ) x t

 ( B ) I ( B )  1

利用待定系数法可得如下逆函数递推公式:

 I0  1
  k , k  q
 j , 其中 k  
 I j    k I j  k,j  1, 2,  0, k  q
 k 1
例如,

(1  1 B   2 B 2    q B q )( I 0  I1 B  I 2 B 2  )1

I0  1
I1  1 I 0  0
确定初值
I 2   1 I1   2 I 0  0

Iq1  1 Iq 2   q1 I0  0

kq I k   1 I k 1   k I0  0 差分方程
(4) MA模型的偏自相关系数

定理:任何一个可逆的MA模型都可以转化
为无穷阶AR模型。

例如:MA(1): xt   t  1 t 1

若 1  1
 t  (1  1 B)1 xt

这是一个无穷阶自回归模型。

结论:MA模型的偏自相关系数拖尾。
【例】求MA(1)模型 xt   t  1 t 1 的偏自相关
函数。

解 MA(1)模型的自相关函数为

1, k0

 1
k   , k 1
 1  1
2

 0 , k2

则MA(1)模型偏自相关函数为:
1
11  1 
1  12
0 1 1 1
1 2 1 0 ( 1 )2
 22   
0 1 1 1 1  ( 1 )2
1 0 1 1

2
 1 
 2 
 1  1  12
 
 1 
2
1  12  14
1  2 
 1  1 
0 1 1 1 1 1
1 0 2 1 1 0
2 1 3 0 1 0
 33  
0 1 2 1 1 0
1 0 1 1 1 1
2 1 0 0 1 1

3
 1 
 2 
13   13
  1 
1
 
1  212 1  12  14  16
2
 1 
1  2 2 
 1   1 
0 1 2 1 1 1 0 1
1 0 1 2 1 1 1 0
2 1 0 3 0 1 1 0
3 2 1 4 0 0 1 0  14
 44   
0 1 2 3 1 1 0 0 1  3 12  14
1 0 1 2 1 1 1 0
2 1 0 1 0 1 1 1
3 2 1 0 0 0 1 1

14

1  12  14  16  18
1k
类推可以得到,  kk 
1  12  14  16   12 k

可见:MA(1)模型的偏自相关系数拖尾。
总结:自回归与移动平均过程的关系

① 一个平稳的AR(p)过程
(1  1 B   2 B 2    p B p ) xt   t
可以转换为一个无限阶的移动平均过程,
xt  (1  1 B   2 B 2    p B p )1  t

②一个可逆的MA(q)过程
xt  (1  1 B   2 B 2    q B q ) t
可转换成一个无限阶的自回归过程,
(1  1 B   2 B 2    q B q )1 xt   t
③对于AR(p)过程只需考虑平稳性问题,条

件是 B) = 0的根(绝对值)必须大于1。不必

考虑可逆性问题。

④对于MA(q)过程,只需考虑可逆性问题,

条件是 B) = 0的根(绝对值)必须大于1,不必

考虑平稳性问题。
三、ARMA模型

(一)ARMA模型的定义

具有如下结构的模型称为自回归移动平均模型,
简记为ARMA(p, q).
 xt   0  1 xt 1    p xt  p   t  1 t 1    q t  q

 p  0, q  0

 E ( t )  0,Var ( t )    , E ( t  s )  0, s  t
2

 Ex   0, s  t
 s t

特别当  0  0 时,称为中心化 ARMA(p, q)模型。


利用延迟算子,中心化ARMA(p,q)模型又可
以简记为:
( B ) xt  ( B ) t

其中, ( B ) 是 p 阶自回归系数多项式:
( B )  1  1 B   2 B 2    pB p

( B ) 是 q 阶移动平均系数多项式:

( B )  1  1 B   2 B 2   q Bq

注意:这里要求 ( B ) 与 ( B ) 没有公共因子。
(二) ARMA(p,q)平稳条件与可逆条件

ARMA(p,q)模型的平稳条件:

P 阶自回归系数多项式  ( B )  0 的根都在单位
圆外,即ARMA(p,q)模型的平稳性完全由其自回归
部分的平稳性决定。

ARMA(p,q)模型的可逆条件:

q 阶移动平均系数多项式 ( B )  0 的根都在单位
圆外,即 ARMA(p,q) 模型的可逆性完全由其移动平
滑部分的可逆性决定。
(三) ARMA(p,q)传递形式与逆转形式

 传递形式  逆转形式

xt   ( B )( B ) t
1  t   1 ( B )( B ) xt
 

  t   G j t  j  xt   I j xt  j
j 1 j 1

无穷阶AR模型
无穷阶MA模型
格林函数 逆函数

G0  1  I0  1
 
 k
 k

Gk    jGk  j   j , k  1  I k    j I k  j   j , k  1
 j 1  j 1

其中

 j , 1  j  p  j , 1  j  q
 j   ,  j  
 0, j p  0, jq
【例】 求平稳可逆ARMA(1,1)模型:
(1  1 B ) xt  (1  1 B ) t

的格林函数和逆函数。并求出 E ( xt ),Var ( xt ) 。

【解】 将模型转化为无穷阶移动平均模型:
1  1 B
xt  t  (1  1 B)(1  1 B  12 B2  ) t
1  1 B
 1  (1  1 ) B  1 (1  1 ) B 2  12 (1  1 ) B 3    t

  t  (1  1 ) t 1  1 (1  1 ) t 2  12 (1  1 ) t 3 

所以,格林函数为:
G0  1, G j  1j 1 (1  1 ), j 1
类似地,将模型转化为无穷阶自回归模型可得

1  1 B
t  xt  (1  1 B)(1  1 B  1 B 
2 2
) xt
1  1 B

 1  (1  1 )B  1 (1  1 )B 2  12 (1  1 )B 3   xt

 xt  (1  1 ) xt 1  1 (1  1 ) xt  2  12 (1  1 ) xt 3 

所以,逆函数为:

I0  1

I j  1j 1 (1  1 ), j 1
在模型: (1  1 B ) xt  (1  1 B ) t 两边取期望得
E ( xt )   1 E ( x t 1 )  0

 (1  1 ) E ( xt )  0  E ( xt )  0

模型的传递形式为:
xt   t  (1  1 ) t 1  1 (1  1 ) t 2  12 (1  1 ) t 3 

     
Var ( xt )     1   G j      1   [1 (1  1 )] 
2 2 2 j 1 2

 j 1   j 1 

    (   ) 2

    1  (1  1 )  1 2( j 1)
   1 1 2 
2 2 2 1 1

 j 1   1 
【例】设时间序列  xt  来自 ARMA  2,1 过程,
满足:
 1  B  0.5 B 2
 xt  1  0.4B   t
其中 { t } 是白噪声序列,并且 E   t   0,Var   t    。
2

(1)判断模型 ARMA  2,1 的平稳性。

(2)利用递推法计算前三个格林函数 G0 , G1 , G2 。
(四)ARMA(p,q)模型的统计性质
0
均值: E ( xt ) 
1  1  p


方差:  (0)   G 2j
j0


     Gi Gi  k
2
自协方差函数: k
i 0

 (k )
G G
j0
j jk

自相关函数:  k  
 (0) 

 j
G
j0
2
【例】设时间序列 {xt} 来自ARMA(1,1)过程,
满足:
xt  0.5 xt 1   t  0.25 t 1

其中  t ~ WN  0,  2  , 求 E ( xt ),Var ( xt ) ,并证明其自
相关系数为 :
 1, k0

 k   0.27 k 1
 0.5  k2
 k 1

【解】显然 E ( xt )  0
 (1  1 )2  2
 0  Var ( xt )   1   
 1  1 
2

 (0.5  0.25)2  2 13 2
 1    
 1  0.5 2
 12

在模型:xt  0.5 xt 1   t  0.25 t 1 两边乘以 xt  k 取期望


E ( xt  0.5 xt 1 ) xt  k   E ( t  0.25 t 1 ) xt  k 
k  1:  1  0.5 0  0.25 E ( xt 1 t 1 )
k  2 :  2  0.5 1  0
k  3 :  3  0.5 2  0
......... ......... ......... ......... .........

k  2:  k  0.5 k 1  0   k  0.5  k 1  0
注意到:
E ( xt 1 t 1 )  E (0.5 xt  2   t 1  0.25 t  2 ) t 1 

 E   t21    2
 1  0.5 0  0.25 E ( xt 1 t 1 )  0.25 2

1 0.25 2 0.25 2 3
 0.5   
0 0 13 2
 13
12
1 3 7
 1   0.5    0.27
0 13 26

 1, k0

于是得到  k   0.27 k 1
0.5  k2
 k 1
ARMA(1, 1)过程是实际中最常用的模型。

4
ARMA

-2

-4
20 40 60 80 100 120 140 160 180 200

ARMA(1,1) 过程
ARMA(1, 1) xt  0.4 xt 1   t  0.6 t 1 序列的生
成程序, t 为标准正态分布白噪声序列 。
smpl @first @last
series u=nrnd
smpl @first @first
series x=0
smpl @first+1 @last
series x=0.4*x(-1)+u+0.6*u(-1)

4
3
2

1
0
-1

-2
-3
-4
-5
10 20 30 40 50 60 70 80 90 100

X
(五)平稳可逆ARMA模型的自相关系数和
偏自相关系数具有的特征

由于平稳可逆ARMA模型既可表示为无穷阶
自回归模型,也可转化为无穷阶移动平均模型,
所以,平稳可逆ARMA模型的的自相关系数是拖
尾的,偏自相关系数也是拖尾的。
总结:ARMA模型相关性特征

模型 自相关系数 偏自相关系数

AR(p) 拖尾 p 阶截尾

MA(q) q 阶截尾 拖尾

ARMA(p,q) 拖尾 拖尾
一、建模步骤

平 计
稳 算
非 样 模型 参数
白 本 识别 估计
噪 相
声 关
序 系
列 数 模 序
N 模型 Y 型 列
检验 优 预
化 测
二、样本相关系数的计算

由于平稳时间序列的均值函数和自协方差函数
通常具有遍历性,因此,样本自相关函数和样本偏
自相关函数可利用下式计算。

样本自相关系数

n k

(x t  x )( xt  k  x )
ˆ k  t 1
n
, 1 k  N
 t
( x
t 1
 x ) 2
样本偏自相关系数

Dˆ k
ˆ kk  , 1 k  N

1 ˆ 1 ˆ k 1 1 ˆ 1 ˆ 1
ˆ 1 1 ˆ k  2 ˆ1 1 ˆ 2
Dˆ  , Dˆ k 

ˆ k 1 ˆ k  2 1 ˆ k 1 ˆ k  2 ˆ k
三、模型识别

(一)模型识别(模型定阶)的基本原则

ˆ k ˆ kk 选择模型
拖尾 p 阶截尾 AR(p)
q 阶截尾 拖尾 MA(q)
拖尾 拖尾 ARMA(p,q)
(二)模型定阶的困难原因:
因为由于样本的随机性,样本的相关系数不会
呈现出理论截尾的完美情况,本应截尾的 ̂ k 或 ˆkk
仍会呈现出小值振荡的情况。

由于平稳时间序列通常都具有短期相关性,随着
延迟阶数 k   , ̂ k 与 ˆ kk 都会衰减至零值附近作
小值波动。
当 ̂ k或 ˆkk 在延迟若干阶之后衰减为小值波动时,
什么情况下该看作为相关系数截尾,什么情况下该看作
为相关系数在延迟若干阶之后正常衰减到零值附近作拖
尾波动呢?
(三)利用样本自相关系数和偏自相关系数的
统计性质 可以帮助我们识别模型。

k
【定理】可以证明: E ( ˆ k )  (1  )  k
n
1 q 2 1 q
Var ( ˆ k )   ˆ m  (1  2 ˆ m2 ), kq
n m  q n m 1

所以,当样本容量 n 充分大时,有
近似 近似 1
1
ˆ k ~ N (0, ) ,  kk ~ N (0, )
ˆ
n n
该定理的结论由Barlett和Quenouille得到 .
由正态分布的性质得

 2 2 
P  ˆ k    0.95
 n n

 2 2 
P  ˆ kk    0.95
 n n
(四)模型定阶经验方法:

有样本(偏)自相关系数的近似分布,如果

样本(偏)自相关系数在最初的d 阶明显大于两倍标

准差范围,而后几乎95%的自相关系数都落在2倍

标准差的范围以内,而且通常由非零自相关系数

衰减为小值波动的过程非常突然。这时,通常视

为(偏)自相关系数截尾。截尾阶数为d。
例1 选择合适的模型ARMA拟合1950年—1998年

北京市城乡居民定期储蓄比例序列。

时序图
自相关与偏自相关图

序列自
相关图

序列偏自
相关图
拟合模型识别:

自相关图显示延迟3阶之后,自相关系数全部衰
减到2倍标准差范围内波动,这表明序列明显地短期
相关。但序列由显著非零的相关系数衰减为小值波
动的过程相当连续,相当缓慢,该自相关系数可视
为不截尾 (拖尾)。
偏自相关图显示除了延迟1阶的偏自相关系数
显著大于2倍标准差之外,其它的偏自相关系数都
在2倍标准差范围内作小值随机波动,而且由非零
相关系数衰减为小值波动的过程非常突然,所以
该偏自相关系数可视为一阶截尾。

所以,本例可以考虑拟合模型为AR(1)。
例2 1880-1985全球气表平均温度改变值差分序列

时序图
序列自
相关图

序列偏自
相关图
拟合模型识别:

自相关系数显示出不截尾的性质;

偏自相关系数也显示出不截尾的性质;

综合该序列自相关系数和偏自相关系数的性质,

可以尝试使用ARMA(1,1)模型拟合该序列。
四、参数估计

对一个非中心化ARMA(p,q)模型

xt  0  1 xt 1    p xt  p   t  1 t 1    q t  q

其中共有 p  q  2 个未知参数需要估计:
1 , ,  p ,1 , , q ,  ,  2

常用估计方法:

(1)矩估计 (2)极大似然估计

(3)最小二乘估计
(一)矩估计

原理:利用样本自相关系数估计总体自相
关系数。(依据平稳序列的遍历性)。

 1 (1 , ,  p , 1 , ,  q )  ˆ 1


  ( , ,  , , ,  )  ˆ
 p q 1 p 1 q p q

n
1
 0  ˆ x2   ( xi  x )2
n
1
ˆ  x   xi n i 1
n i 1
(1)AR(p)模型的矩估计
利用Yule-Walker方程
 1 1  p 1    1   1 
    
 1 1  p  2   1    2 
     
    

 p 1  p 2 1    p    p 

可得  1 ,  2 , ,  p 的矩估计:
1
 1   1 1  p 1   1 
     
  2    1 1  p 2   2 
     
     
  p    p 1  p 2 1   p 
利用实际时间序列提供的信息,首先求得
ˆ1 , ˆ 2 , , ˆ p
自相关函数的估计值:

然后利用Yule Walker方程组,求解模型参数
的估计值:ˆ1 , ˆ 2 , , ˆ p

1
 ˆ1   1 ˆ1 ˆ p1   ˆ 1 
ˆ   ˆ   ˆ 
  2    1 1 ˆ p 2   2 
     
     
 ˆ p   ˆ p 1 ˆ p  2 1   ˆ p 
对于零均值AR模型(中心化AR )
 0  E ( xt xt )
 E  xt (1 xt 1   2 xt  2    p xt  p   t ) 
 1 1   2 2    p p   2

所以,   的估计是:
2

ˆ 2  ˆ0  (ˆ1ˆ1  ˆ 2ˆ2   ˆ pˆ p )


 ˆ0 (1  (ˆ1 ˆ 1  ˆ 2 ˆ 2   ˆ p ˆ p ))
其中, ˆ0 的估计是:
n
1
ˆ0   x2   ( xi  x )2
n i 1
例3: 求AR(1) 、AR(2)模型系数的矩估计

AR(1)模型: xt  1 xt 1   t

Yule-Walker方程:  1  1 0

1
 1   1
0

所以,矩估计为: ˆ1  ˆ1

ˆ 2  ˆ0 (1  ˆ1 ˆ1 )  ˆ0 (1  ˆ12 )


AR(2)模型: xt  1 xt 1   2 xt  2   t

Yule-Walker方程:

 1   1 1    1   1   1   2 1
     
  2   1 1   2 
  2   1 1   2

 1 (1   2 )
1  1  12

解方程得: 
   2  12
 2 1  12
1 ,  2 的矩估计(Yule-Walker方程的解)为:

1  ˆ 2
ˆ1  ˆ 1
1  ˆ 1
2

ˆ 2  ˆ12
ˆ 2 
1  ˆ12
 2 的矩估计为:

ˆ 2  ˆ0 (1  ˆ1 ˆ1  ˆ2 ˆ 2 )


n
1
其中,ˆ0   x2   ( xi  x )2
n i 1
(2)MA (q)模型的矩估计

由MA(q)模型自协方差函数计算公式

  0  (1  12    q2 ) 2

 k  (  k   k 11   k  2 2    q q  k ) 
2 ()

 k  1, 2, , q

从这q+1个方程中,求解出 1 , 2 , , q ,  2
即可得到矩估计。
例4:求MA(1) 、MA(2)模型系数的矩估计

MA(1)模型: xt   t  1 t 1

方程:
 0  (1  12 ) 2 1 1
  1  
 1  1 
2
 0 1   1
2

矩估计(注意到 1  1 ):

 1  1  4 
ˆ 12 ˆ1
ˆ1  ˆ   
2

2 ˆ1 ˆ1
MA(2)模型: xt   t  1 t 1   2 t  2

方程:
 0  (1  12   22 ) 2


 1  (  1   
2 1 ) 
2

     2
 2 2 

直接求解上述方程很困难,一般只能用
数值解法。通常的数值解法有线性迭代法和
Newton-Raphson迭代法.
(3)ARMA(p,q)模型的矩估计

xt  1 xt 1    p xt  p   t  1 t 1    q t  q

第一步,先估计 1,2, , p

1
 ˆ1   ˆ q ˆ q 1 ˆ q  2 ... ˆ q  p 1   ˆ q 1 
ˆ   ˆ   
  2     q 1 ˆ q ˆ q 1 ... ˆ q  p   ˆ q  2 
 ...   ... ... ... ... ...   ... 
     
 ˆ p   ˆ q  p 1 ˆ q  p  2 ˆ q  p  3 ... ˆ q   ˆ 
 q p 
第二步,改写模型,求 1 , 2 , ,q 以及
 2 的估计值

将模型:
xt  1 xt 1    p xt  p   t  1 t 1    q t  q
改写为:
xt  1 xt 1    p xt  p   t  1 t 1   q t q (*)

令 xt  ˆ1 xt 1   ˆ p xt  p

于是(*)可以写成:
xt   t  1 t 1  2 t  2   q t q
构成一个MA(q)模型。按照估计MA模型参

数的方法,可以得到 1 , 2 , ,q 以及  2 的估计

值。
例5:求ARMA(1,1)模型系数的矩估计
ARMA(1,1)模型: xt  1 xt 1   t  1 t 1

【解】在模型的两边取方差得:

Var ( xt )  Var (1 xt 1   t  1 t 1 )   2

 12Var ( xt 1 )  Var ( t )  12Var ( t 1 )  211 E( xt 1 t 1 )

 0  12 0   2  12 2  211 2

1  12  211 2
  0  Var ( xt ) 
1  1 2

E  xt xt 1   E (1 xt 1   t  1 t 1 ) xt 1 

  1  1 0  1 E  t 1 xt 1 

  1  1 0  1 2

1  2
  1   1
0 0
 2  2
 1   1   1  1  1
0 1  12  211 2

1  1 2

(1  1 )(1  11 )



1  12  211
k  2:  k  0.5 k 1  0   k   1  k 1  0

  1 (1  1 )(1  11 )


方程:  1  
  0 1   1  2 1 1
2

   
 2 1 1

整理上述方程组得:

 2 1  12  2  2
1  1  1  0
  1  1
   
 2 1 1
即 12  c1  1  0 1  12  2  2
 c
  2  1 1 1  1

解上述方程得 1 ,1 的矩估计:

c  c2  4
 , c  2
ˆ 2 ˆ  2
ˆ1  , 1   ,
ˆ 1 c  c2  4
 ,c  2
2
1  ˆ12  2 ˆ 2
其中,c 
ˆ1  ˆ1
再由

(1  12  211 ) 2
0 
1  12

 2
可得  的矩估计为:

1  
ˆ 2
ˆ 2  1
ˆ0
1  ˆ  2ˆ ˆ
1
2
1 1

n
1
其中,ˆ0   x2   ( xi  x )2
n i 1
(3)对矩估计的评价

优点:估计思想简单直观;不需要假设总体
分布;计算量小(低阶模型场合)。

缺点:信息浪费严重,只用到了p+q个样本
自相关系数信息,其他信息都被忽略;估计精
度差。

通常矩估计方法被用作极大似然估计和最小
二乘估计迭代计算的初始值。
(二)极大似然估计
1. 极大似然估计思想

原理:在极大似然准则下,认为样本来自使该
样本出现概率最大的总体。因此未知参数的极大似
然估计就是使得似然函数(即联合密度函数)达到
最大的参数值 。
L( ˆ1 , ˆ2 , , ˆk ; x1 , x1 , , xn )
 max{ p( x1 , x1 , , xn ); 1 ,  2 , , k }

极大似然估计的精度较高,一般称之为模型的
精估计,通常需要知道总体的分布,计算较为复杂。
例6 求高斯AR(1)过程似然函数
X t  c   X t 1   t

其中  t ~i .i .d . N  0,  2  ,   (c, , 2 )T

当   1 时,高斯AR(1)过程是平稳的,因
而 Xt 是高斯的(正态的)。先求 X1 的分布

EX 1    c (1   )
DX 1  E ( X 1   )2   2 (1   2 )
 X1 N (c (1   ),  2 (1   2 ))
f X1 ( x1 ; )  f X1 ( x1 ; c ,  ,  2 )
1 { x1  [c (1   )]}2
 exp[ ]
2  (1   )
2 2 2  (1   )
2 2

再求X2在 X 1  x1 的条件下的分布

X 2  c   X1   2

 X2 X1  x1 ~N ( c   x1 ,  2
)

1 ( x2  c   x1 )2
f X 2 X1 ( x2 x1 ; )  exp[ ]
2 2 2
类似地
X3  c   X2  3

 X3 X 2  x2 , X1  x1 N (c   x2 ,  2 )

 ( x3  c   x2 ) 2
1
f X 3 X 2 , X1 ( x3 x2 , x1 ; )  exp[ ]
2 2 2

f XT XT 1 , XT 2 , , X1
( xT xT 1 , xT  2 , , x1 ; )
1 ( xT  c   xT 1 )2
 exp[ ]
2 2 2
则 ( X 1 , X 2 , , X T ) 的联合密度为

f XT , XT 1 , XT 2 , , X1 ( xT , xT 1 , xT  2 , , x1 ; )
T
 f X1 ( x1 ; )  f X t X t 1 ( xt xt 1 ; )
t 2

c 2
 ( x1  )
1 1
 exp[ ]
2  2 (1   2 ) 2  (1   )
2 2

T 1  ( xt  c   x t 1 )2
 exp[ ]
t  2 2  2 2
对数似然函数为

T
l ( )  ln f X1 ( x1 ; )   ln f X t X t 1 ( xt xt 1 ; )
t 2

c 2
( x1  )
1 1 1
  ln(2 )  ln[ 2 (1   )] 
2

2 2 2  2 (1   2 )
T 1 T 1 T
( x  c   x ) 2
 ln(2 )  ln( 2 )   t t 1

2 2 t 2 2 2
2. 条件极大似然估计
求精确极大似然估计的另一方法是将x1的值
视作确定性的,然后最大化以第一个观察值为条
件的似然值。称为条件极大似然估计。
T
f XT , XT 1 , X 2 X1
( xT , xT 1 , , x2 x1 ; )   f X t X t 1 ( xt xt 1 ; )
t 2

ln f XT , XT 1 , , X 2 X1
( xT , xT 1 , , x2 x1 ; )
T 1  ( xt  c   xt 1 )2
 ln(  exp[ ])
t  2 2 2 2

T 1 T 1 T
( x  c   x ) 2
 ln(2 )  ln( 2 )   [ t t 1
] -------(*)
2 2 t 2 2 2
c和  的最大似然估计等价于最小化
T T

 t
( x
t 2
 c   x t 1 ) 2
= t
 2

t 2

利用普通的最小二乘回归(OLS),可得  c,  
的条件似然估计为:
1
 T
  T 
 cˆ   T 1  X t 1    Xt 
ˆ    T
t 2
  t 2 
  2  T 
T

  X t 1  X t 1    X t 1 X t 
 t 2 t 2   t 2 
(*)式对  2
求导可得  2
的条件似然估计

T  1 T ( xt  c   xt 1 ) 2
  [ ] 0
2 2
t 2 2 4

T
( x  ˆ
c  ˆ x ) 2
1 T
ˆ 2   [ t t 1
]  (ˆ ) 2

t 2 T  1 T  1 t 2
t

精确似然估计通常是非线性的,往往要用迭代
的方法求解。显然条件极大似然估计更易于计算。
且当样本量T充分大时,第一个观察值对总似然值
的影响可以忽略。
3. 非高斯时间序列的最大似然估计

通常将非高斯时间序列通过某一变换变为高斯
时间序列。

常用以下变换(Box-Cox):

 X t  1
 ,  0
Yt   
 ln X ,   0
 t
4. 对极大似然估计的评价

1、优点(1)极大似然估计充分应用了每一
个观察值所提供的信息,因而它的估计精度高;
(2)同时还具有估计的一致性、渐近正态性
和渐近有效性等许多优良的统计性质。

2、缺点(1)需要假定总体分布;
(2)计算较复杂。
(三)最小二乘估计

(1)原理:使残差平方和达到最小的那组参
数值即为最小二乘估计值。

Q( ˆ )  min Q(  )
n
 min   t2
t 1
n
 min  ( xt  1 xt 1    p xt  p  1 t 1    q t  q )2
t 1
由于随机扰动  t 1 ,  t  2 , 不可观测,通常使用
条件最小二乘估计方法,即假定过去未观测到的序
列值为零。
xt  0, t0

这样  t 就可以利用序列观测值的有些项表示
出来,即
( B ) t
t  x t  x t    i xt  i
( B ) i 1

n n t
Q( ˆ ) min   t2  min  ( xt    i xt  i )2
t 1 t 1 i 1
(2)对最小二乘估计的评价

最小二乘估计充分应用了每一个观察值所提
供的信息,因而它的估计精度高;条件最小二乘
估计方法使用率最高。
例7:确定1950年—1998年北京市城乡居民定
期储蓄比例序列拟合模型的口径

拟合模型:
AR(1)
估计方法:极大似然估计
此处极大似然
估计与最小二
乘估计是等价

此数是均值
 =E(Xt)

0   (1  1 )
 81.32034
(1  0.703332)
 24.12513
模型输出:
xt  24.125  0.703xt 1   t Var (ˆ2 )  16.468
或 xt  81.32  0.703( xt 1  81.32)   t
估计方法:最小二乘估计 命令不同
此数是截
距项  0

xt  24.125  0.703xt 1   t
五、模型检验
当估计完一个模型后,我们还需要对拟合的模
型做必要的检验,以判断模型对样本数据的拟合效
果。通常可以从以下几个方面判断:
(1)残差序列是否是白噪声序列;
(2)所有的系数是否显著不等于0;
(3)模型结构是否简练;
(4)模型是否有一定的经济意义;
(5)模型预测能力如何。

其中最主要的是模型的显著性检验和参数的显
著性检验.
(一)模型的显著性检验

(1)检验目的: 检验模型的有效性(对信
息的提取是否充分)。

(2)检验对象: 残差序列
(3)判定原则

一个好的拟合模型应该能够提取观察值序列
中几乎所有的样本相关信息,即残差序列应该为
白噪声序列 。反之,如果残差序列为非白噪声
序列,那就意味着残差序列中还残留着相关信息
未被提取,这就说明拟合模型不够有效。
(4)假设条件

原假设:残差序列为白噪声序列

H 0:1   2    m  0, m  1

备择假设:残差序列为非白噪声序列

H1:至少存在某个 k  0, m  1,k  m

Barlett证明了:如果时间序列  1 ,  2 , ,  n 是白
噪声序列,当样本容量 n 很大时,
近似
ˆ k ~ N (0,1 n), k  1
这时 n ˆ1 , n ˆ 2 , , n ˆ m 可以近似地看成是
m个相互独立的标准正态分布随机变量。于是有
m 近似
Q  n ( ˆ k )2 ~  2 ( m )
k 1

上述 Q 统计量是由 Box 和 Pierce 给出的,也


记作 QBP ,它在大样本的情形下检验效果较好,但
对于小样本它的检验效果不佳。

为此,Box 和 Ljung对上述 Q 统计量进行了修


正,得到了下列 LB 统计量,也记为 QLB 。
(5)检验统计量:LB统计量

ˆ k2
m
LB  n( n  2) ( ) ~  2 (m)
k 1 n  k

n k

 ˆ ˆ t t k
ˆ k  t 1
n

 t

ˆ 2

t 1

Eviews中检验模型残差序列的自相关性使用
的是 QLB 统计量。
(6)检验规则

若 Q  2 (m) ,则拒绝 H0,认为残差


序列不是白噪声序列;

若 Q   2
 ( m ) ,则接受 H0,认为残差

序列是白噪声序列;
比较 QBP 统计量和 QLB 统计量
m
QBP  n ( ˆ k )2
k 1
m
ˆ k2 m
n 2 2
QLB  n( n  2) ( )  n ( ˆ k )
k 1 n  k k 1 n  k

我们发现:因为 (n  2) (n  k )  1 ,所以

QLB  QBP

这说明利用LB统计量检验更容易拒绝原假设。
对于固定的 k 值,当 n   时,
(n  2) (n  k )  1

也就是说,当样本容量 n 充分大且 k  n 时
QBP 和 QLB 几乎是一样的,这说明在大样本的条

件下,统计量 QBP 和统计量 QLB 差别不大。


例:检验1950年—1998年北京市城乡居民
定期储蓄比例序列拟合模型的显著性。

残差白噪
声序列检
验结果:
延迟阶数 LB统计量 P值 检验结论
6 4.93 0.425
12 9.33 0.591 拟合模型
18 10.31 0.890 显著有效
(二)参数的显著性检验

(1)目的: 检验每一个未知参数是否显著非
零。删除不显著参数使模型结构最精简

(2)假设条件:

H0 :  j  0
H1 :  j  0 1  j  m
(3)检验统计量:

ˆ j   j
T  nm ~ t (n  m )
a jj Q(  )

n
其中 Q(  )   ˆt2
t 1

拒绝域: T  t 2 (n  m )
例:检验1950年—1998年北京市城乡居民定期
储蓄比例序列极大似然估计模型的参数是否显著 。

t 统计量值

p 值
参数检验结果:

检验参数 t统计量 P值 结论
均值 41.148 <0.0001 显著
1 6.720 <0.0001 显著
六、模型优化

(一)问题的提出

问题提出:当一个拟合模型通过了检验,说
明在一定的置信水平下,该模型能有效地拟合观
察值序列的波动,但这种有效模型并不是唯一的。

优化的目的:选择相对最优模型。
例: 等时间间隔,连续读取70个某次化学反应
过程的数据,构成一时间序列(数据见附录)。试
对该序列拟合合适的时间序列模型。
自相关图
2阶截尾

偏自相关图
拖尾
拟合模型一
根据自相关系数2阶截尾,拟合MA(2)模型

参数估计:
xt  51.16381  (1  0.32309B  0.31334B2 ) t
模型检验:模型显著有效;三参数均显著。
自相关图
拖尾

偏自相关图
1阶截尾
拟合模型二
根据偏自相关系数1阶截尾,拟合AR(1)模型

参数估计:
xt  73.0863  0.424903 xt 1   t
模型检验:模型显著有效;两参数均显著。
问题:同一个序列可以构造两个拟合模型,
两个模型都显著有效,那么到底该选择哪个模型
用于统计推断呢?

解决办法:确定适当的比较准则,构造适当
的统计量,确定相对最优。
(二)信息准则

1. AIC准则( Akaike Information Criterion)

由日本统计学家赤池弘次(Akaike)1973 年
提出,称为最小信息量准则。

AIC 准则的基本思想是认为评价一个模型
的优劣可以从两个方面考察:一方面是模型对
数据的拟合效果;另一方面是模型中参数估计
的精度。
通常似然函数值越大(或估计的残差平方和
越小)说明模型的拟合效果越好。一般地,增加
模型中解释变量的个数会使估计的残差平方和降
低,拟合优度增大。
然而,增加模型中解释变量的个数,会使需
估计的参数增多,相应地减少自由度,参数估计
的难度增大,估计的精度变差。甚至,包含了无
关紧要的变量还会降低拟合模型的预测效果。

所以,一个好的拟合模型应该是拟合精度和
未知参数个数的综合最优配置。
AIC准则定义如下: AIC统计量:
惩罚因子为 2

AIC  ln(ˆ 2 )  2T n

其中: n ------可用的序列观测值的个数
T ------待估参数的个数
n
ˆ 2   ˆt2 ------残差平方和
t 1

中心化的ARMA(p,q)模型, T  p  q  1
非中心化的ARMA(p,q)模型,T  p  q  2
可以证明,
n
ln L   ln(ˆ 2 )  K
2
其中K是一个与参数无关的量。于是AIC准则也可
以用如下形式表示:

AIC  2ln( L) n  2T n

其中 L 为极大似然函数值, n为样本容量, T为
待估参数的个数。
AIC准则的缺陷:
AIC准则为我们提供了一个筛选模型的方法,但
AIC准则也有一定的不足。主要是因为当样本容量 n
增大时,待估参数的个数 T 对AIC的值的影响将迅速
变小,在大样本的条件下,AIC的值将主要由 ln(ˆ 2 )
决定。这样,在样本容量趋于无穷大时,由AIC准则
选择的模型将不收敛于真实模型,它通常比真实模型
所含的未知参数的个数要多。
因此,当样本容量很大时,AIC准则倾向于选择
多参数模型。
2. SBC准则
(Schwartz Bayesian informatiom criterion)

为了弥补AIC准则的不足,Schwartz 在1978年
根据Bayes理论提出了SBC准则, 也称BIC准则或SC
准则(Schwartz criterion)。
SC准则的定义如下:

SBC统计量:

SBC  ln(ˆ 2 )  T ln(n) n

SBC  2ln( L) n  T ln(n) n

其中:n为可用的序列观测值的个数,T为待估参数
的个数,L为极大似然函数值。
SBC准则具有更优的大样本特性。对于一个
ARMA(p,q)模型来说,当样本容量充分大时,利
用AIC准则和SBC准则选择的模型的阶数都会大
于等于模型的真实阶数。但是,可以证明利用
SBC准则选择的模型的阶数是真实阶数的渐近一
致估计。然而,在小样本的情况下,AIC准则的
效果要优于SBC准则。
我们在建模时,当然是 AIC的值(或者是SBC
的值)越小越好。但需要注意的是:在比较两个备
选模型的 AIC 的值(或者是 SBC 的值)时,必须
基于是由相同样本期估计的模型。

此外,还需注意的是:如果依据 AIC 准则和


SBC 准则选择的模型相同,我们就会对自己选择的
模型更有信心。但是,如果依据 AIC 准则和 SBC准
则选择的模型不同 ,为了谨慎起见,我们应作进一
步分析。
一般说来,SBC 准则倾向于选择更为简练
的模型,所以,这时应进一步检验残差是否为
白噪声。而 AIC 准则倾向于选择更多参数模
型,那么我们就应该注意模型中所有系数的 t
检验是否显著。当然,还可以结合其他检验标
准(例如模型的预测效果等)来帮助我们选择
相对最优模型。
最后要注意:在使用AIC(或 SBC)准则选
择模型时,我们只能得到相对最优模型,而不可
能得到绝对最优模型。(因为不可能比较所有模
型的AIC值 )。
建立时间序列模型的最终目的常常是要利用
所建模型对随机序列的未来发展进行预测。所谓
预测是要利用序列已观测到的样本值对序列未来
某个时刻的取值进行估计。预测方法主要有线性
最小方差预测和条件期望预测。
(一)线性预测

所谓线性预测是指利用已知观测值的线性函
数来估计时间序列的未来值的预测方法。
假定 X t , X t 1 , 是序列的已知历史观测值,
X t  l (l  1) 是未来时刻的序列值,用 X t , X t 1 ,

的线性函数:

Xˆ t  l   Ci X t  i
i 0

作为 X t  l 的估计值,则称 Xˆ t  l 是 X t  l 的线性预
测,记为 Xˆ t ( l ) 。
预测误差记为 et ( l ) ,则

et (l )  X t  l  Xˆ t  l  X t  l  Xˆ t (l )

问题:我们依据什么原则来确定预测函数中
的 C i(即 X t  i 前面的系数 C i )呢?最常用的方法
是根据预测的均方误差最小的原则来确定系数C i 。
即选择使得均方误差 E ( X t  l  Xˆ t  l )2 最小。据此得
到的线性预测称为线性最小均方误差预测。
(二)预测方差最小原则

预测误差:
et (l )  X t  l  Xˆ t (l )
我们要求的预测值 Xˆ t ( l ) 就是使得预测误差
的方差最小,即
min Var et (l )

由于 Xˆ t ( l ) 是 X t , X t 1 , 的线性函数,所以
该原理也称为线性预测方差最小原理。
对于一个平稳可逆的ARMA模型来说,由于
信息  X t , X t 1 ,  与信息  t ,  t 1 , 是等价的,因
此, 基于信息  X t , X t 1 ,  的预测和基于信息
 t ,  t 1 ,  的预测是相同的。为了讨论的方便,
我们将的线性预测表示为:

Xˆ t  l  Xˆ t (l )   Di  t  i
i 0

那么,问题转化为如何选择常数 Di ,使得上式是
X t  l 的最佳线性预测(均方误差最小预测)。
假设平稳可逆ARMA模型的传递形式为:

X t   t  G1 t 1  G2 t  2 

X t  l   t  l  G1 t  l 1  G2 t  l  2   Gl 1 t 1  Gl  t  Gl 1 t 1 

Xˆ t  l   Di  t  i  D0 t  D0 t 1 
i 0

于是,预测误差为:

et ( l )  X t  l  Xˆ t ( l )

  t  l  G1 t  l 1  G2 t  l  2   Gl 1 t 1  (Gl  D0 ) t  (Gl 1  D1 ) t 1 


预测误差的方差为:
Var (et (l ))  (1  G12   Gl21 )  (Gl  D0 )2  (Gl 1  D1 )2    2

显然,当
Di  Gl  i , i  0,1, 2,
时,可以使预测误差的方差达到最小。于是,我们
得到 X t  l 的线性最小均方误差预测为:

Xˆ t  l   Gl  i  t  i  Gl  t  Gl 1 t 1  Gl  2 t  2 
i 0

X t  l   t  l  G1 t  l 1  G2 t  l  2   Gl 1 t 1  Gl  t  Gl 1 t 1  Gl  2 t  2 


 
最小均方误差预测误差:et ( l ) 最小均方误差预测值:Xˆ t  l
此时,最小均方误差预测的预测误差为:
et (l )  X t  l  Xˆ t (l )   t  l  G1 t  l 1  G2 t  l  2   Gl 1 t 1
预测误差的方差为:
Var (et (l ))  (1  G12   Gl21 ) 2

若  t  是正态白噪声序列,则
et (l ) N (0, (1  G12   Gl21 ) 2 )

由此可以看出,预测步长 l 越大,则预测的方差也
越大,从而预测的精度越低。这就意味着时间序列
数据通常只适合做短期预测。
(三)条件期望预测

1.条件数学期望的概念

(1) 离散型随机变量的情形
设 ( X , Y ) 是离散随机向量,联合分布律为
P( X  xi ,Y  y j )  pij , i , j  1, 2,

Y 的边缘分布律为:

P (Y  y j )   pij  p j , j  1, 2,
i 1

P ( X  xi , Y  y j ) pij
称 P ( X  xi Y  y j )   , i  1, 2,
P (Y  y j ) p j

为给定 Y  y j 时X 的条件分布律。
  pij
称 E ( X Y  y j )   xi P ( X  xi Y  y j )   xi
i 1 i 1 p j
j  1, 2,

为给定 Y  y j 时 X 的条件数学期望。
类似地,可定义给定 X  xi 时Y 的条件数学期望。

显然 E ( X Y  y j ) 依赖于事件 Y  y j  , 它的取值随Y 的

的取值不同而不同。
因此。我们可以定义一个新的随机变量 E ( X Y ) ,当

  Bj   Y  y j 
它的取值为 E ( X Y  y j ) 。 此时称 E ( X Y ) 为随机变量X关于
随机变量Y的条件数学期望。
【关于条件期望 E ( X Y ) 的几点说明】

1. 条件期望 E ( X Y ) 是一个随机变量,它是随
机变量Y 的函数,当

  Bj   Y  y j 
时, E ( X Y ) 的取值为 E ( X Y  y j ) 。

2. 当 E ( X Y  y j )  E ( X Y  yk ), j  k 时,有

 
P E ( X Y )  E ( X Y  y j )  P (Y  y j )

3. 类似地,可定义条件期望 E( X Y , Z ) , 以及
E( X X1 , X 2 , , Xn )
例 设随机向量 ( X , Y ) 的联合分布率为

X Y 1 2 3
1 1 1 1
3 6 9
2 1 2 1
9 9 18

求 E ( X Y ) 的分布律, EX ,E ( E ( X Y )) 。

解 先求E ( X Y ) 的可能取值
2
5
E ( X Y  1)   iP( X  i Y  1) 
i 1 4
2
11
E ( X Y  2)   iP( X  i Y  2) 
i 1 7
2
4
E ( X Y  3)   iP( X  i Y  3) 
i 1 3
故 E ( X Y ) 的分布率为

E( X Y ) 5 11 4
4 7 3
P( E ( X Y )  E ( X Y  y j ))
4 7 3
 P(Y  y j ) 9 18 18

5 4 11 7 4 3 25
E ( E ( X Y ))       
4 9 7 18 3 18 18
11 7 25
EX  1  2   从而 E(E( X Y ))  EX
18 18 18
(2) 连续型随机变量的情形

设 ( X , Y ) 的联合密度函数为 f ( x , y ) ,fY ( y )   f ( x , y )dx
给定Y= y 条件下 X 的条件概率密度函数为:
f ( x, y )
f X Y  y ( x y) 
fY ( y )
条件分布函数为:
f ( u, y )
FX Y  y ( x y )  P ( X  x Y  y )  
x
du
 fY ( y )
条件数学期望为:
  f ( x, y)
E( X Y  y)   xf X Y  y ( x y )dx   x dx
  fY ( y )
 f ( x, y)
显然: E ( X Y  y )   x dx
 fY ( y )
  ( y)

于是定义随机变量 E ( X Y ) 如下:

E( X Y )   ( y) y Y   (Y )

称 E ( X Y ) 为随机变量X 关于随机变量Y 的条件数学期望。


(3) 条件期望的主要性质

1. E (c Y )  c,c 是常数;

2. 线性性:

E (aX  bY ) Z   aE  X Z   bE Y Z  , a, b是常数.

3. 全期望公式:
E  X   E  E ( X Y )

E  g( X )  E  E[ g ( X ) Y ]

E  E[ g( X , Y ) Y ]  E[ g( X , Y )]
4. 提取已知量:

E[ g( X )h(Y ) X ]  g( X ) E[h(Y ) X ]

E[ g( X )h(Y ) Y ]  h(Y ) E[ g( X ) Y ]

5. 如果 X 与 Y 相互独立,则

EX Y  EX
6. 信息准则:

E[ E( X Y , Z ) Y ]  E[ E ( X Y ) Y , Z ]
 E( X Y )
(4) 条件期望的计算
1. 离散型:先计算

E ( X Y  y j )   xi P ( X  xi Y  y j )
i 1
 pij
  xi  ( yj )
i 1 p j
则 E( X Y )   ( y j ) y j Y   (Y )

2. 连续型:先计算

E( X Y  y)   xf X Y  y ( x y )dx


 f ( x, y)
 x dx   ( y )
 fY ( y )
则 E( X Y )   ( y) y Y   (Y )
(5)条件数学期望的应用
定理:在已知随机变量 X 的条件下, 条件期望 E (Y X )
是随机变量Y 的最佳预测(均方意义下)。

证明:设 g(x) 是任一可测函数,则

E[(Y  g ( X ))2 | X ]
 E[(Y  E (Y | X )  E (Y | X )  g( X ))2 | X ]

 E[(Y  E (Y | X ))2 | X ]  E[( E (Y | X )  g( X ))2 | X ]


2 E[(Y  E (Y | X ))( E (Y | X )  g( X )) | X ]

注意到: E[(Y  E (Y | X ))( E (Y | X )  g ( X )) | X ]


 ( E (Y | X )  g( X )) E[(Y  E (Y | X )) | X ]  0
于是:
E[(Y  g ( X ))2 | X ]

 E[(Y  E (Y | X ))2 | X ]  E[( E (Y | X )  g( X ))2 | X ]

 E[(Y  E (Y | X ))2 | X ]

两边取数学期望,即得:

E[(Y  g( X ))2 ]  E[(Y  E (Y | X ))2 ]


2. 条件期望预测

假定 X t , X t 1 , 是序列的已知历史观测值,
X t  l (l  1) 是未来时刻的序列值,用条件期望:

Xˆ t  l  E ( X t  l X t , X t 1 , )

作为 X t  l 的估计值,则称 Xˆ t  l 是 X t  l 的条件期望
预测。
3. 条件期望预测与线性预测的关系

E[( X t  l  f ( X t , X t 1 , ))2 ]  E[( X t  l  E ( X t  l X t , X t 1 , ))2 ]

对于平稳可逆的ARMA(p,q)模型来说,有

E ( X k X t , X t 1 , )  X k (k  t )

E ( k X t , X t 1 , )   k (k  t )

E ( k X t , X t 1 , )  0 (k  t )

E ( X k X t , X t 1 , )
 E ( X k  t ,  t 1 , )  X k (k  t )
假设ARMA模型的传递形式为:
X t   t  G1 t 1  G2 t  2 
Xˆ t  l  E ( X t  l X t , X t 1 , )

 E   t  l  G1 t  l 1   Gl 1 t 1  Gl  t  Gl 1 t 1  X t , X t 1 , 


 E   t  l  G1 t  l 1   Gl 1 t 1  Gl  t  Gl 1 t 1   t ,  t 1 , 
 Gl  t  Gl 1 t 1 

由此可见,对于一个平稳可逆的ARMA模型
来说,条件期望预测与线性最小均方误差预测是
等价的。
AR(1)序列的预测: 一般地有:
xt   0   1 xt 1   t xˆ t ( l )   0  1 xˆ t ( l  1)
  0 (1  1   1l 1 )  1l xt
xˆ t (1)  E ( xt 1 xt , xt 1 , ) 0
lim xˆ t ( l ) 
 E ( 0  1 xt   t 1 ) xt , xt 1 ,  l  1  1
  0   1 xt 预测误差:
et ( l )   t  l  G1 t  l 1   Gl 1 t 1
xˆ t (2)  E ( xt  2 xt , xt 1 , )
预测误差方差:
 E ( 0  1 xt 1   t  2 ) xt , xt 1 , 
Var (et (l ))  (1  G12   Gl21 ) 2
  0   1 E ( x t  1 x t , x t 1 , ) l 1
  2  12 j
  0  1 ( 0  1 xt ) j0

  0  1 0   x
 2
limVar (et (l ))   Var ( xt )
2

1  1
1 t 2
l 
AR(2)序列的预测: 一般地 l  2 时,有:
xt   1 xt 1   2 xt  2   t xˆ t ( l )  1 xˆ t ( l  1)   2 xˆ t ( l  2)

xˆ t (1)  E ( xt 1 xt , xt 1 , ) 预测值满足差分方程:
  1 xt   2 xt 1 xˆ t ( l )  1 xˆ t ( l  1)   2 xˆ t ( l  2)  0

xˆ t (2)  E ( xt  2 xt , xt 1 , ) 预测误差:
 1 xˆ t (1)   2 xt et ( l )   t  l  G1 t  l 1   Gl 1 t 1

预测误差方差:
xˆ t (3)  E ( xt  3 xt , xt 1 , )
 1 xˆ t (2)   2 xˆ t (1) Var (et (l ))  (1  G12   Gl21 ) 2

limVar (et (l ))  Var ( xt )


l 
AR(p)序列的预测:
xˆ t (l )  E ( xt  l xt , xt 1 , )
 E (1 xt  l 1  2 xt  l  2    p x t  l  p   t  l xt , xt  1 , )

预测值: xˆ t (l )  1 xˆ t (l  1)    p xˆ t (l  p)

 xˆ t ( k ), k  1
xˆ t ( k )  
 xt  k , k  0
预测误差方差:
Var[et (l )]  (1  G12   Gl21 ) 2
95%置信区间:
 1

 
  1  G   
ˆ
 t
x ( l ) z 1 G 2 2
l 1
2
1
 2 
例 已知某超市月销售额近似服从 AR(2) 模
型(单位:万元/每月)

xt  10  0.6 xt 1  0.3 xt  2   t ,  t ~ N (0, 36)

今年第一季度该超市月销售额分别为:

101,96,97.2万元

请确定该超市第二季度每月销售额的95%的
置信区间。
解:预测值计算

xˆ t (1)  E ( xt 1 xt , xt 1 , )
 E (10  0.6 xt  0.3 xt 1   t 1 xt , xt 1 , )
 10  0.6 xt  0.3 xt 1

于是,四月份预测值为:

xˆ 3 (1)  10  0.6 x3  0.3 x2  97.12


同样地,

xˆ t (2)  E ( xt  2 xt , xt 1 , )
 E (10  0.6 xt 1  0.3 xt   t  2 xt , xt 1 , )
 10  0.6 E ( xt 1 xt , xt 1 , )  0.3 xt 1
 10  0.6 xˆ t (1)  0.3 xt 1

于是,五月份预测值为:

xˆ 3 (2)  10  0.6 xˆ 3 (1)  0.3 x3


 10  0.6  97.12  0.3  97.2
 97.432
xˆ t (3)  E ( xt  3 xt , xt 1 , )
 E (10  0.6 xt  2  0.3 xt 1   t  3 xt , xt 1 , )
 10  0.6 xˆ t (2)  0.3 xˆ t (1)

于是,六月份预测值为:

xˆ 3 (3)  10  0.6 xˆ 3 (2)  0.3 xˆ 3 (1)


 10  0.6  97.432  0.3  97.12
 97.5952
预测方差的计算

GREEN函数:
G0  1
G1  1G0  0.6
G2  1G1   2G0  0.36  0.3  0.66

于是,预测误差的方差为:

Var[e3 (1)]  G02 2  36


Var[e3 (2)]  (G02  G12 ) 2  48.96
Var[e3 (3)]  (G02  G12  G22 ) 2  64.6416
预测的置信区间(95%):

( xˆ 3 ( l )  1.96 Var[e3 ( l )] , xˆ 3 ( l )  1.96 Var[e3 ( l )])

估计结果:

预测时期 95%置信区间
四月份 (85.36,108.88)
五月份 (83.72,111.15)
六月份 (81.84,113.35)
MA(1)序列的预测:
xt     t  1 t 1

xˆ t (1)  E ( xt 1 xt , xt 1 , )
 E (    t 1  1 t ) xt , xt 1 , 
   1 t
et (1)  xt 1  xˆ t (1)
    t 1  1 t  (   1 t )
  t 1

Var (et (1))  Var ( t 1 )   2


xˆ t (2)  E ( xt  2 xt , xt 1 , )
 E (    t  2  1 t 1 ) xt , xt 1 , 


et (2)  xt  2  xˆ t (2)
    t  2  1 t 1  
  t  2  1 t 1

Var (et (2))  Var ( t  2  1 t 1 )


 (1  12 ) 2
一般地:
xˆ t ( l )   , l2

et ( l )  xt  l  xˆ t ( l )
    t  l  1 t  l 1  
  t  l  1 t  l 1

Var (et ( l ))  Var ( t  l  1 t  l 1 )


 (1  12 ) 2

limVar (et (l ))  Var ( xt )


l 
一般地,MA(q)序列的预测:

预测值:  q

     i t  l  i ,l  q
xˆ t ( l )   il
 ,l  q

预测方差:
(1  12    l21 ) 2 , l  q
Var[et ( l )]  
 (1   1 
2
  q2 ) 2 , l  q

lim xˆ t (l )    E ( xt )
l 

limVar (et (l ))  Var ( xt )


l 
例:已知某地区每年常驻人口数量近似服从
MA(3) 模型(单位:万):
xt  100   t  0.8 t 1  0.6 t  2  0.2 t  3

最近3年的常驻人口数量及一步预测数量如下:

年份 统计人数 预测人数
2002 104 110
2003 108 100
2004 105 109

预测未来5年该地区常住人口的95%置信区间。
【解】随机扰动项的计算:
 t  2  x2002  xˆ 2001 (1)  104  110  6
 t 1  x2003  xˆ 2002 (1)  108  100  8
 t  x2004  xˆ 2003 (1)  105  109  4

预测值的计算:
xˆ t (1)  100  0.8 t  0.6 t 1  0.2 t  2  109.2
xˆ t (2)  100  0.6 t  0.2 t 1  96
xˆ t (3)  100  0.2 t  100.8
xˆ t (4)  100
xˆ t (5)  100
预测方差的计算:

Var[et (1)]   2  25
Var[et (2)]  (1  12 ) 2  41
Var[et (3)]  (1  12   22 ) 2  50
Var[et (4)]  (1  12   22   32 ) 2  51
Var[et (5)]  (1  12   22   32 ) 2  51
预测的置信区间(95%):

( xˆ t ( l )  1.96 Var[et ( l )] , xˆ t ( l )  1.96 Var[et ( l )])

预测年份 95%置信区间
2005 (99,119)
2006 (83,109)
2007 (87,115)
2008 (86,114)
2009 (86,114)
ARMA(2,1)序列预测:
xt  1 xt 1  2 xt  2   t  1 t 1

xˆ t (1)  E ( xt 1 xt , xt 1 , )
 E (1 xt   2 xt 1   t 1  1 t ) xt , xt 1 , 
 1 xt   2 xt 1  1 t

xˆ t (2)  1 xˆ t (1)   2 xt

xˆ t (3)  1 xˆ t (2)   2 xˆ t (1)


一般地:

xˆ t ( l )  1 xˆ t ( l  1)   2 xˆ t ( l  2)  0( l  3)
ARMA(p,q)序列预测:

预测值:

 q

1 xˆ t ( l  1)    p xˆ t ( l  p)    i  t  l  i , l  q
xˆ t ( l )   il
  xˆ ( l  1)    p xˆ t ( l  p) , lq
 1 t

 xˆ t ( k ) , k  1
其中: xˆ ( k )  
 xt  k , k  0
t

预测方差:
Var[et (l )]  (G01  G12   Gl21 ) 2
例:已知ARMA(1,1)模型为
xt  0.8 xt 1   t  0.6 t 1  2  0.0025
且 x100  0.3,  100  0.01
预测未来 3 期序列值的 95% 的置信区间。

【解】预测值的计算

xˆ 100 (1)  0.8 x100  0.6 100  0.234


xˆ 100 (2)  0.8 xˆ 100 (1)  0.1872
xˆ 100 (3)  0.8 xˆ 100 (2)  0.14976
预测方差的计算:

Green函数:
G0  1
G1  1G0  1  0.2
G2  1G1  0.16

方差:
Var[e100 (1)]  G02 2  0.0025
Var[e100 (2)]  (G02  G12 ) 2  0.0026
Var[e100 (3)]  (G02  G12  G22 ) 2  0.002664
置信区间的计算:

( xˆ t ( l )  1.96 Var[et ( l )] , xˆ t ( l )  1.96 Var[et ( l )])

时期 95%置信区间
101 (0.136,0.332)
102 (0.087,0.287)
103 (-0.049,0.251)
(四)修正预测

1. 定义 所谓的修正预测就是研究如何利用
新的信息去获得精度更高的预测值 。
2. 修正方法
(1)若新得到的信息量比较大——可以把
新信息加入到旧的信息中,重新拟合模型 。

(2)若新得到的信息量很小——可以不重新
拟合模型,只是将新的信息加入以修正预测值,
提高预测精度。
3. 修正原理

在旧信息 xt , xt 1 , 的基础上, xt  l 的预测值为

xˆ t ( l )  Gl  t  Gl 1 t 1 

假设新获得一个观察值 xt 1,则 xt  l 修正预测值为

xˆ t 1 ( l  1)  Gl 1 t 1  Gl  t  Gl 1 t 1 

 Gl 1 t 1  xˆ t ( l )

显然, xˆ t 1 ( l  1)  xˆ t ( l )
修正预测误差为:
et 1 ( l  1)  X t  l  Xˆ t 1 ( l  1)

 G0 t  l   Gl  2 t  2

修正预测方差为:

Var[et 1 (l  1)]  (G02   Gl2 2 ) 2

因为 Var[et (l )]  (G01  G12   Gl21 ) 2

所以 Var[et 1 ( l  1)] Var[et ( l )]


更一般的情况:

在旧信息 xt , xt 1 , 的基础上, xt  l 的预测值为

xˆ t ( l )  Gl  t  Gl 1 t 1 

假设新获得 p 个观察值 xt 1 , , xt  p ,则 xt  l 修
正预测值为

xˆ t  p (l  p)  Gl  p t  p   Gl 1 t 1  xˆ t (l )
修正预测误差为:

et  p (l  p)  G0 t  l   Gl  p1 t  p1

修正预测方差为:

Var[et  p ( l  p)]  (G02   Gl2 p 1 ) 2


例 已知某超市月销售额近似服从 AR(2) 模
型(单位:万元/每月)

xt  10  0.6 xt 1  0.3 xt  2   t ,  t ~ N (0, 36)

今年第一季度该超市月销售额分别为:

101,96,97.2万元

请确定该超市第二季度每月销售额的95%的
置信区间。
例 (上例续) 假如四月份的真实销售额为100万
元,求二季度后两个月销售额的修正预测值 。

解:计算四月份的预测误差

 4  x4  xˆ 3 (1)  100  97.12  2.88

修正预测值为:

xˆ 4 (1)  G1 4  xˆ 3 (2)  99.16

xˆ 4 (2)  G2 4  xˆ 3 (3)  99.50


修正预测方差为:
Var[e4 (1)]  Var[e3 (1)]  G02 2  36

Var[e4 (2)]  Var[e3 (2)]  (G02  G12 ) 2  48.96


修正置信区间为:

预测时期 修正前置信区间 修正后置信区间

四月份 (85.36,108.88)

五月份 (83.72,111.15)(87.40,110.92)

六月份 (81.84,113.35)(85.79,113.21)
4. 预测评价

当有多个时间序列模型通过了检验时,我们该选
择哪一个模型用于预测呢?不能认为拟合优度最高的
模型预测效果就最好。因为预测误差有两种来源,第
一种来源于模型的随机干扰项(模型的设定误差),
干扰项的方差越大,预测误差将越大。预测误差的另
一种来源是模型中系数的估计值与真实参数之间的差
别,即模型中系数估计的精度(抽样误差)。系数估
计的精度越低,预测误差越大。
通常解释变量的个数增多有可能提高拟合优度,
但是解释变量个数增多又会使得需要估计的未知参
数的个数增多,降低了自由度,从而使得系数估计
的精度下降。
在选择用于预测的模型时,常用的做法是将得
到的时间序列样本数据 x1 , , xT , xT 1 , , xT  h 分成两
部分,用样本的前一段数据 x1 , , xT 估计模型,然
后利用所得的估计模型对后一段数据 xT 1 , , xT  h
进行预测,得到预测值 xˆ T 1 , , xˆ T  h 。通过对比实
际值 xT 1 , , xT  h 和预测值 xˆ T 1 , , xˆ T  h ,度量出预
测误差,然后利用预测误差的大小来评价模型的预
测功能。
用估计的模型对样本 x1 , , xT 进行估计得到
的估计值 xˆ 1 , , xˆ T 通常称为模拟值(拟合值),
或称为样本内预测值。称 xˆ T 1 , , xˆ T  h为样本外预
测值。而对 T+h 期以后的预测称为事前预测。为
方便起见,将 xˆ 1 , , xˆ T , xˆ T 1 , , xˆ T  h 统称为预测值。
对于时间序列模型,如果模型的解释变量中
含有因变量的滞后期,则模型的预测方法有两种:
动态(Dynamic)预测和静态(Static)预测。

(1)动态预测:是从预测样本的第T期开始计
算的多步预测,模型中作为解释变量的因变量的滞
后期使用的是它的预测值。

(2)静态预测:是利用滞后因变量的实际值而
不是预测值计算的一步向前预测的结果。
例如,假设有一个样本序列数据:
x1 , , xT , xT 1 , , xT  h

利用前一段数据 x1 , , xT 估计模型AR(2)模型:

X t   0   1 X t 1   2 X t  2   t

得到参数的估计值为 ˆ 0 , ˆ1 , ˆ 2 。则 T+i 期的静态


预测值为:

xˆ T  i  ˆ1 xT  i 1  ˆ 2 xT  i  2 , i  1, 2, ,h
T+i 期的动态预测值为:

 ˆ1 xT  ˆ 2 xT 1 , i  1,

xˆ T  i   ˆ1 xˆ T 1  ˆ 2 xT , i  2,
ˆ xˆ
 1 T  i 1  ˆ 2 xˆ T  i  2 , 2  i  h.

而在 T+h+1 期以后,因为没有实际观测值,所以
没有静态预测值,只能得到动态预测值。
预测误差的度量有多种形式,下面介绍几
种主要的形式。

(1)平均绝对误差(Mean Absolute Error),


记为MAE:
1 T h
MAE   xt  xˆ t
h t T  1
(2)平均相对误差(Mean Absolute Percentage
Error),记为MPE:
1 T  h xt  xˆ t
MPE  
h t T  1 xt
(3)均方误差(Mean Squared Error)或称预
测误差的方差,记为MSE:

1 T h
MSE    xt  xˆ t 
2

h t T  1

(4)均方根误差(Root Mean Squared Error),


记为RMSE:
1 T h
  xt  xt 
2
RMSE  ˆ
h t T  1
(5)泰尔不等系数
(Theil Inequality Coefficient),记为TIC:

1 T h
  xt  xˆ t 
2

h t T  1
TIC 
1 T h 2 1 T h 2

h t T  1
xt 
h t T  1
xˆ t

平均绝对误差(MAE)、均方误差(MSE)和均方
根误差(RMSE)是带有量纲的量,它们受因变量量纲的
影响。而平均相对误差(MPE)和泰尔不等系数(TIC)
是相对量,它们不受因变量量纲的影响。
MAE、MPE、MSE 和 RMSE 的取值范围
为  0,   ,它们的值越小,则意味着预测精度越
高,预测的准确性越高。

泰尔不等系数(TIC)的取值范围在0与1之
间,TIC 的值越小,则意味着预测精度越高。
其极端情况是 TIC =0 ,
表示每一期的预测值都等于实际值,这是一种
完美的预测。

TIC=1 是另一种极端情形,
这时 xˆ t   xt ( t  T , T  1, , T  h) ,表示 xˆ t 与
x t 的变化趋势完全相反,说明预测极不准确。

所以,TIC 越接近 0 说明预测越准确,TIC


越接近 1 表示预测值偏离实际值越远,预测精度
越低。
可以证明,均方误差(MSE)可以做如下分解:

1 T h
  
2
x t  ˆ
x t  ( ˆ
x  x ) 2
 ( s xˆ  s x ) 2
 2(1  r )s xˆ s x
h t T  1


MSE  ( xˆ  x )2  ( s xˆ  s x )2  2(1  r )s xˆ s x

其中, xˆ , x 分别表示 x̂ 和 x 的平均值,s xˆ , s x 分别


表示 x̂ 和 x 的标准差, r 表示 x̂ 和 x 的相关系
数。
定义:

( xˆ  x )2
偏倚比例(Bias Proportion)
MSE

偏倚比例度量了预测值的均值与实际值的均
值的偏离程度,用来描述是否存在系统误差。

( s xˆ  s x )2
方差比例(Variance Proportion)
MSE
方差比例度量了预测值的方差与实际值的方差
的偏离程度。
2(1  r ) s xˆ s x
协方差比例(Covariance Proportion)
MSE

协方差比例衡量了非系统预测误差的大小。

显然,偏倚比例+方差比例+协方差比例=1。当预
测结果较好时,偏倚比例和方差比例应该较小,而协
方差比例应该较大。Eviews中提供了以上预测评价指
标。
(五)案例分析
案例:等时间间隔,连续读取 70 个某次化
学反应过程的数据,构成一时间序列(数据见附
录)。试对该序列拟合合适的时间序列模型。
1. 平稳性检验

该时间序列的时序图及自相关图如下:
从时间序列的时序图来看,时间序列基本上
是围绕一条水平直线上下波动,波动幅度在某一
个范围之内,波动幅度不剧烈,并且没有明显的
趋势性或周期性。时间序列的样本自相关图和偏
自相关图显示,滞后 2 阶以后的样本自相关系数
在 2 倍标准误之内,滞后 1 阶以后的样本偏自相
关系数在 2 倍标准误之内,说明时间序列具有明
显的短期相关性。因此,可以判断该时间序列是
平稳的。
2. 白噪声检验

滞后阶数 Q统计量值 P值
6阶 23.916 0.001
12阶 25.942 0.011

滞后6阶和滞后12阶的P值均小于0.05,拒
绝了序列是白噪声的原假设。所以,该时间序
列是平稳而非白噪声序列。
3. 模型识别

从时间序列的样本自相关图和偏自相关图来看,
若将样本自相关系数看成 2 阶截尾,将样本偏自相关
系数看成拖尾,我们可以尝试拟合MA(2)模型;同样
地,若将样本自相关系数看成拖尾,将样本偏自相关
系数看成 1 阶截尾,我们可以尝试拟合 AR(1) 模型;
或者将样本自相关系数和偏自相关系数都看成拖尾,
尝试拟合 ARMA(1,1) 模型。
4. 参数估计及模型检验
模型参数估计及模型检验结果

参数估计 参数的显著性检验 残差序列的白噪声检验


变量 系数 标准差 t 统计量值 P值 Q 统计量值 P值
c 51.1638 1.2902 39.6570 0.0000 0.7761(6阶) 0.521
MA(1) -0.3231 0.1210 -2.6694 0.0095 7.7016(12阶) 0.697
MA(2) 0.3313 0.1215 2.5810 0.0121
c 51.2921 0.9318 55.0437 0.0000 5.5311(6阶) 0.401
AR(1) -0.4249 0.1163 -3.6522 0.0005 11.208(12阶) 0.721
c 51.2413 1.0963 46.7418 0.0000 1.1362(6阶) 0.704
AR(1) -0.7734 0.1468 -5.2692 0.0000 7.3223(12阶) 0.839
MA(1) 0.4882 0.2092 2.3339 0.0227

所以,MA(2)、AR(1)和ARMA(1,1)模型均是该序列的有效
拟合模型。
5. 模型筛选

模型 AIC SBC
MA(2) 7.663370 7.759734
AR(1) 7.667111 7.731868*
ARMA(1,1) 7.650628* 7.747763

依据AIC准则,我们应该选择的模型是
ARMA(1,1)模型:
X t  51.2413  0.7734(X t 1  51.2413)   t  0.4882 t 1
X t  90.872  0.7734X t 1   t  0.4882 t 1
 2  117.9483
依据SBC准则应该选择的模型是AR(1)模型:

X t  51.2413  0.4249(X t 1  51.2413)   t

X t  73.0863  0.4249X t 1   t

 2  121.5927

由此可以看出,AIC 准则倾向于选择较多参
数模型,而 SBC 准则倾向于选择较少参数模型
(简练的模型)。
6. 模型预测

AR(1)模型:
X t  73.0863  0.4249X t 1   t

动态(Dynamic)预测:前一期的序列值利
用其预测值计算,样本外预测需要用动态预测。

例如,若利用上述AR(1)模型预测化学序列
第71到76期值,应该用动态预测。
第一步:扩大序列 X 的样本范围1到76

第二步:估计AR(1)模型
第三步:点击 Forecast , 将预测样本范围改
为71到76,选择动态预测,然后点击OK。
预测序列名

可以对预测标
准误命名
第四步:得到预测结果
静态预测:(样本内预测)

AR(1)模型: X t  73.0863  0.4249X t 1   t

第2期预测值: Xˆ 2  73.0863  0.4249X 1

第3期预测值: Xˆ 3  73.0863  0.4249X 2


.............
第71期预测值: Xˆ 71  73.0863  0.4249X 70

第71期以后没有静态预测值。
动态预测:(样本内)

AR(1)模型: X t  73.0863  0.4249X t 1   t

第2期预测值: Xˆ 2  73.0863  0.4249X 1

第3期预测值: Xˆ 3  73.0863  0.4249Xˆ 2


.............
第71期预测值: Xˆ 71  73.0863  0.4249Xˆ 70
动态预测:(样本外)

AR(1)模型: X t  73.0863  0.4249X t 1   t

第71期预测值:Xˆ 71  73.0863  0.4249X 70

第72期预测值:Xˆ 72  73.0863  0.4249Xˆ 71

第73期预测值: Xˆ 73  73.0863  0.4249Xˆ 72

.............

You might also like