Download as pdf or txt
Download as pdf or txt
You are on page 1of 57

第二章 时间序列的预处理

讲课老师:张婧
时间序列的预处理

预处理

平稳性检验 纯随机性检验
本章内容

1. 平稳性检验

2. 纯随机性检验
2.1 平稳性检验

本节内容
❖ 特征统计量
❖ 平稳时间序列的定义
❖ 平稳时间序列的统计性质
❖ 平稳时间序列的意义
❖ 平稳性的检验
2.1.1 特征统计量

❖ 概率分布的意义

▪ 分布函数或者密度函数能完全地描述一个随机变量
的统计特征。

▪ 随机变量族 X t  的所有统计特性完全由它们的联合
分布函数或联合密度函数决定。
时间序列的概率分布

❖对于时间序列X t , t  T ,它的概率分布定义如下:
❖任取正整数m ,任取 t1 , t2 ,..., tm  T ,则m 维随机向量
( X t1 , X t2 ,..., X tm )' 的联合概率分布定义为
Ft1 ,t2 ,..., t m ( x1 , x2 ,..., xm ) = P( X t1  x1 , X t2  x2 ,..., X tm  xm )

由这些有限维分布函数构成的全体
 m  正整数,
{ Ft1 ,t 2 ,..., tm ( x1 , x2 ,..., xm ), t1 , t 2 ,..., t m  T }

就称为时间序列 X t , t  T  的概率分布族。
❖例如:
所有的一维分布(m=1)是
Ft1 ( x1 ), Ft2 ( x2 ), Ft3 ( x3 ),....
所有的二维分布(m=2)是
Ft1 ,t2 ( x1 , x2 ), Ft1 ,t3 ( x1 , x3 ),..., Ft2 ,t3 ( x2 , x3 ),....
所有的三维分布(m=3)是

Ft1 ,t2 ,t3 ( x1 , x2 , x3 ), ....


概率分布族应用的局限性:
❖ 一个时间序列的概率结构,被它的有限维分布族唯一
决定。
❖ 实际应用中,要得到序列的联合概率分布几乎是不可
能的。
❖ 联合概率分布通常涉及非常复杂的数学运算。

解决方案
研究该序列的低阶矩(均值、方差、自协方差、
自相关系数,也称为特征统计量)
特征统计量
❖均值
对于时间序列X t , t  T ,任意时刻的序列值 X t 都是一个随
机变量,记它的分布函数为 Ft (x) ,若满足

-
xdFt ( x)  

则一定存在某个常数  t 使得随机变量 X t 总是在常数  t 附近


做随机波动,称  t 为序列 X t  在t时刻的均值函数,记为

t = E ( X t ) =  xdFt ( x)
-

当t取遍所有的观察时刻时,就得到均值函数序列 t , t  T ,它


反映的是时间序列 X t , t  T 每时每刻的平均水平。
❖方差

当 - x dFt ( x)   时,定义时间序列的方差函数如下
2


 = D( X t ) = E ( X t − t ) =  ( x − t ) 2 dFt ( x)
t
2 2
-

当t取遍所有的观察时刻时,就得到方差函数序列  t , t  T  。
2

❖自协方差和自相关系数
对于时间序列 X t , t  T  ,任取 t, s T ,自协方差函数定义为
r (t , s) = E ( X t − t )( X s −  s ).
自相关系数定义为
r (t , s )
 (t , s ) = .
D( X t )  D( X s )
2.1.2 平稳时间序列的定义
❖严平稳
▪ 严平稳是一种条件比较苛刻的平稳性定义,它认为只
有当序列所有的统计性质都不会随着时间的推移而发
生变化时,该序列才能被认为平稳。

❖宽平稳
▪ 宽平稳是使用序列的特征统计量来定义的一种平稳性。
它认为序列的统计性质主要由它的低阶矩决定,所以
只要保证序列低阶矩平稳(二阶),就能保证序列的
主要性质近似稳定。
严平稳

对时间序列 X t , t  T ,若对任意正整数 m ,任取 t1 , t 2 , , t m  T ,


任意正整数  ,有

Ft1 ,t2 tm ( x1 , x2 , , xm ) = Ft1+ ,t 2+ t m+ ( x1 , x2 , , xm )

则称时间序列 X t , t  T  为严平稳时间序列。
宽平稳
❖ 对时间序列X t , t  T  ,如果满足下面三个条件:
(1) 任取 t T,有 E ( X t )   ;
2

(2) 任取 t T,有E ( X t ) =  ,  为常数;


(3) 任取 t, s, k T , 且 k + s − t T , 有 r(t, s) = r(k, k + s − t ),
则称 X t , t  T  为宽平稳时间序列,宽平稳也称为弱平稳或二
阶平稳。

注:(3)  r(t, s) = r(t + , s + ), 其中 t, s T , t + T , s + T .


严平稳与宽平稳的关系
❖一般关系
▪ 严平稳条件比宽平稳条件苛刻,通常情况下,严平稳(低阶
矩存在)能推出宽平稳成立,而宽平稳序列不能反推严平稳
成立

❖特例
▪ 不存在低阶矩的严平稳序列不满足宽平稳条件,例如服从柯
西分布的严平稳序列就不是宽平稳序列
▪ 当二阶矩存在时的严平稳序列才是宽平稳序列
▪ 当序列服从多元正态分布时,宽平稳可以推出严平稳
正态时间序列
时间序列 X t , t  T 为正态时间序列,如果任取正整数n,任
取 t1 , t2 ,..., tn  T ,相对应的有限维随机变量 X 1 , X 2 ,..., X n 服从n
维正态分布,密度函数为 n
− 1
~ − 1
f t1 ,t2 ,,tn ( xn ) = (2 ) 2 n 2 exp[ − ( ~
xn − ~n )n−1 ( ~
xn − ~n )]
2
~ =  ,~ = ( EX , EX ,, EX ),

其中 xn ( X 1 , X 2 , , X n ) n 1 2 n n 为协方差阵

  (t1 , t1 )  (t1 , t 2 )   (t1 , t n ) 


 (t , t )  (t , t )   (t , t ) 
n =  2 1 2 2 2 n 

    
 
 (t n , t1 )  (t n , t 2 )   (t n , t n )
从正态时间序列的密度函数可以看出,其n维分布仅由其均值
向量和自协方差阵决定。换言之,正态时间序列的二阶矩平
稳,等价于分布平稳,所以宽平稳的正态时间序列一定是严
平稳的。
2.1.3 平稳时间序列的统计性质

❖常数均值
EX t =  ,  t T
❖自协方差函数和自相关函数只依赖于时间的平移长
度而与时间的起止点无关
 (t, s) =  (k , k + s − t ), t, s, k T
二维函数 (t, s) 简化为一维函数  (s − t )
 (s − t )   (t, s), t, s T
对于平稳时间序列X t , t  T ,任取t (t + k T ) ,该时间序
列的延迟 k 自协方差函数和延迟 k自相关系数定义如下:
➢延迟k自协方差函数
 (k ) =  (t , t + k ), k为整数
平稳随机序列一定具有常数方差,即
D X t = r (t , t ) = r (0), t T
➢ 延迟k自相关系数
 (t , t + k )  (k )
k = =
D X t  D X t +k  (0)
自相关系数的性质
❖ 规范性
0 = 1且|  k | 1, k

❖ 对称性
 k =  −k

❖ 非负定性:对任意的正整数m,相关阵 m 为对称非负定阵
 0 1   m −1 
 
  0   m−2 
m =  1
   
 
  m−2   0 
 m −1
❖ 非唯一性
一个平稳时间序列一定唯一决定了它的自相关系数,但
一个自相关系数未必唯一对应着一个平稳时间序列。
2.1.4 平稳时间序列的意义
数据结构:
❖ 传统统计分析的数据结构:有限个变量,每个变量有多个
观察值

❖ 时间序列数据结构:可列多个随机变量,而每个变量只有
一个样本观察值
平稳性的重大意义

❖ 在平稳序列场合,序列的均值等于常数,这意味着原本含
有可列多个随机变量的均值序列变成了只含有一个变量的
常数序列。
{t , t  T }  { , t  T }

❖ 原本每个随机变量的均值(/方差/自相关系数)只能依靠
唯一的一个样本观察值去估计,现在由于平稳性,每一个
统计量都将拥有大量的样本观察值。这极大地减少了随机
变量的个数,并增加了待估变量的样本容量。极大地简化
了时序分析的难度,同时也提高了对特征统计量的估计精
度。
样本自协方差函数
➢延迟k自协方差函数的估计值:
1 n−k
ˆ (k ) =
n − k t =1
 ( xt − x )( xt + k − x ), 0  k  n
n
1
= 
n − k t = k +1
( xt − x )( xt − k − x ), 0  k  n

➢总体方差的估计值
1 n
ˆ (0) =  t
n-1 t =1
( x − x ) 2

➢延迟k自相关系数的估计值:
ˆ (k )
ˆ k = , 0  k  n
ˆ (0)
当延迟阶数k远远小于样本容量n时,

1 n−k

ˆ (k ) n − k t =1
( xt − x )( xt + k − x )
ˆ k = =
ˆ (0) 1 n

n t =1
( xt − x ) 2

n−k

 ( x − x )( x
t t +k − x)
 t =1
n

 t
( x
t =1
− x ) 2
2.1.5 平稳性的检验

❖图检验方法(时序图检验、自相关图检验)
特点:操作简单,应用广泛,但结论带有一定主观
性。

❖统计检验方法(单位根检验)
特点:根据特征根是否在单位圆内来判断平稳性,
有多种类型,结果具有客观性。(第6章讲)
1、时序图检验(图检验方法之一)
时序图就是以横轴表示时间,纵轴表示序列值所形成的
二维平面坐标图。

◆基本原理
根据平稳时间序列的均值、方差为常数的性质,
平稳序列的时序图应该呈现序列值始终在一个常数附
近随机波动,而且波动的范围有界、无明显趋势及周
期特征。
例2.1 时序图
1964年—1999年中国纱年产量序列时序图

显然,具有明
显递增趋势,
所以不是平稳
序列。
例2.2 时序图
1962年1月—1975年12月平均每头奶牛月产奶量序列的

时序图

显然,具有明显
递增趋势及规则
的周期性,所以
不是平稳序列。
例2.3 时序图
1949年—1998年北京市每年最高气温序列时序图

显然,最高温度在37度上下波动,所以是平稳序列。
2、自相关图检验(图检验方法之二)

自相关图是以自相关系数为横轴,延迟时期数为倒纵轴,
水平方向的垂线表示自相关系数的大小,是一个二维平面坐
标悬垂线图。

◆基本原理:
根据平稳序列通常具有短期相关性的特点,则随着延
迟期数k的增加,平稳序列的自相关系数会很快地衰减为零
,而非平稳序列的自相关系数较慢地衰减为零。

【注意】时序图通常与自相关图联合使用。
例2.1续 自相关图
◼ 1964年—1999年中国纱年产量序列自相关图

显然,随着延迟时期数的增大,自相关系数慢慢递减到0,
又变负,显示明显的三角对称性,说明具有明显单调趋势,
所以不是平稳序列。
例2.2续 自相关图
1962年1月—1975年12月平均每头奶牛月产奶量序列自相关图

显然,自相关系数长期在0轴一侧,说明有明显单调趋势,且
有明显正弦波动规律,说明有明显周期趋势,不是平稳序列。
例2.3续 自相关图
1949年—1998年北京市每年最高气温序列自相关图

显然,自相关系数除开始外,一直较小,始终在2倍标准差
内,说明序列值一直在纵轴附近波动,所以是一个随机性较强
的平稳序列。
2.2 纯随机性检验

本节内容
❖ 纯随机序列的定义
❖ 纯随机序列的性质
❖ 纯随机性检验
2.2 纯随机性检验

经过平稳性检验,可以判断出序列是否为平稳序
列。若是非平稳,将在后面讨论。对于平稳序列,理
论上都有成熟的建模方法。
是否所有平稳序列都值得建模?

只有那些序列值之间有密切相关关系,历史数据
对未来的发展有一定影响的序列,才值得去挖掘历史
数据中的有效信息,用来预测序列未来的发展。
这也是为什么要进行纯随机性检验的原因。
序列值间有密切相关关系,历史数据对
未来的发展有一定影响的序列

例子:美元对人民币汇率图
序列值间有密切相关关系,历史数据对
未来的发展有一定影响的序列

例子:中国历年的GDP增速
2.2.1 纯随机序列的定义
❖ 描述性定义:
序列值间没有任何相关性,过去的行为对将来的
发展没有丝毫影响,这种序列称为纯随机序列,也称
白噪声序列。

【注意】
➢ 从统计分析的角度而言,纯随机序列是没有任何实际
分析价值的序列。
❖数学定义:
如果时间序列X t , t  T 满足如下性质:
(1) EX t =  , t  T
 2 , t = s
(2)  (t , s ) =  , t , s  T
 0, t  s
则称序列X t , t  T 为纯随机序列,也称为白噪声序列,简记为
X t ~ WN (  ,  2 ) 。

【注意】
1. 白噪声序列一定是平稳序列,而且是最简单的平稳序列。
2. 纯随机序列是一种没有分析价值的序列(统计不相关)。
例2.4 标准正态白噪声序列时序图
随机产生的1000个服从标准正态分布的白噪声序列观察值

2.2.2 纯随机性序列的性质
1、纯随机性
指白噪声序列各值之间没有任何相关关系,即为“无记忆”
的序列。序列完全无序的随机波动,没有任何值得提取的有用
相关信息。自协方差和自相关系数为0,即

(k) = 0,k  0
 k = 0, k  0
【注意】
➢ 对于一个观察值序列,一旦相关信息全部提取(通过拟合模型
进行)完毕,则剩余的残差序列应具有纯随机性。
➢ 检验残差的纯随机性是用于判定序列相关信息是否提取充分的
标准之一。
2、方差齐性
指白噪声序列中每个变量的方差都相等。
DX t =  (0) =  2
根据马尔可夫定理,只有方差齐性的序列,用最小二乘
法得到的未知参数估计值才是准确的、有效的。

【注意】
➢ 对于一个观察值序列,一旦相关信息全部提取完毕,则剩
余的残差序列应具有方差齐性。
➢ 检验残差的方差齐性是用于判定序列相关信息是否提取充
分(即白噪声序列)的另一标准。
2.2.1 纯随机性检验
❖ 纯随机性检验也称为白噪声检验,是专门用来检验序
列是否为纯随机序列的一种方法。

❖ 根据纯随机性的定义,只要满足自协方差或自相关系
数为0,即
 (k ) = 0, k  0 或  k = 0, k  0
则该序列就具有纯随机性。

◆ 实际上,由于观察值序列的有限性,纯随机序列的样
本自相关系数不会绝对为0。
例2.4续 标准正态白噪声序列样本自相关图

该序列自相关系数虽都不为0,但都在0附近随机波动,所
以也看作具有纯随机性。
Barlett定理
❖ 对一个纯随机的时间序列,得到一个n期(观察期数)的观
察序列 {xt , t = 1, ..., n} ,则该序列的延迟 k (k  0) 期的样本自相
关系数将近似服从均值为0,方差为1/n的正态分布,即
1
 k ~ N (0, ) , k  0
ˆ
n
样本自相关系数, k 为
随机变量自相关系数

n ˆ k ~ N (0,1)
一、统计假设

H 0:1 =  2 =  =  m = 0, m  1

(延迟期数小于或等于m 的序列值间相互独立)

H1:至少存在某个 k  0, m  1,k  m

(延迟期数小于或等于m的序列值间有相关性 )
二、检验统计量
➢ Q统计量(Box和Pierce)
观测期数 m
Q = n ˆ k2 ~  2 (m) 延迟期数
k =1

(适合大样本,由barlett定理及卡方统计量定义)

➢ LB统计量(Box和Ljung)
m
ˆ k2
LB = n(n + 2) ( ) ~  2 (m)
k =1 n−k
(适合小样本,是对Q统计量的修正,因其较准确,现
一般都采用LB统计量)
三 判别原则
❖ 拒绝原假设
 2
▪ 当检验统计量大于 1− ( m) 分位点,或该统计量的P 值
小于 时,则可以以 1 −  的置信水平拒绝原假设,认
为该序列为非白噪声序列。

❖ 接受原假设
▪ 当检验统计量小于 1− (m)分位点,或该统计量的P 值
2

大于 时,则认为在 1 −  的置信水平下无法拒绝原假


设,即不能显著拒绝序列为纯随机序列的假定。
例2.4续 计算例2.4中白噪声序列延迟6期和延迟12期的Q统计
量的值,并判断该序列的随机性(α=0.05)
m
ˆ k2
QLB = n(n + 2) ( ) ~  2 (m)
k =1 n − k

白噪声检验
延迟期数
QLB值 P值

延迟6期 2.36 0.8838

延迟12期 5.35 0.9454

由于P值显著大于0.05,所以该序列不能拒绝纯随
机的原假设,可认为是白噪声序列。
思考:本题为何只作了短期延
迟的无自相关性检验,就能判
定为白噪声序列?

首先本题是平稳序列,其次平稳序列一般具有短期相
关性。即若序列有显著相关性,通常只存在延迟时间较
短的序列值间。例子:股票,GDP等。

【注意】
1、一个平稳序列短期延迟的序列值间无显著相关性,则长
期延迟间一般更不存在。
2、一个平稳序列存在短期相关性,则该序列一定不是白噪
声序列,没必要进行长期延迟检验。
例2.3 对1949-1998年北京最高气温序列做白噪声检验( = 0.05 )

白噪声检验
延迟期数
QLB值 P值

延迟6期 5.58 0.4713

延迟12期 6.71 0.8760

结论:由于P值显著大于0.05,所以该序列不能拒绝
纯随机的原假设,可认为是白噪声序列。
例2.5 对1950年—1998年北京市城乡居民定期储蓄所占
比例序列的平稳性与纯随机性进行检验
显然,基
本平稳,
但不很肯
时 定。

图 不肯定原
分 因:波动
析 好像存在
趋势,均
值可能不
是常数值

自相关图分析(进一步考查平稳性)

显然,延迟3阶后,自相关系数都落在2倍标准差范围以内,而且自相关系
数向零衰减的速度非常快,延迟8阶后自相关系数即在零值附近波动。这
是一个非常典型的短期相关的样本自相关图。
白噪声检验
目的:进一步来验证这个平稳序列值之间是否存在相关关系)

白噪声检验
延迟阶数
QLB值 P值

6 75.46 <0.0001

12 82.57 <0.0001

结论:该序列是平稳的,且蕴涵着值得提取的相关信息,
即可以认为不是白噪声序列(平稳非白噪声序列)。

You might also like