Professional Documents
Culture Documents
第二章PPT
第二章PPT
讲课老师:张婧
时间序列的预处理
预处理
平稳性检验 纯随机性检验
本章内容
1. 平稳性检验
2. 纯随机性检验
2.1 平稳性检验
本节内容
❖ 特征统计量
❖ 平稳时间序列的定义
❖ 平稳时间序列的统计性质
❖ 平稳时间序列的意义
❖ 平稳性的检验
2.1.1 特征统计量
❖ 概率分布的意义
▪ 分布函数或者密度函数能完全地描述一个随机变量
的统计特征。
▪ 随机变量族 X t 的所有统计特性完全由它们的联合
分布函数或联合密度函数决定。
时间序列的概率分布
❖对于时间序列X t , t T ,它的概率分布定义如下:
❖任取正整数m ,任取 t1 , t2 ,..., tm T ,则m 维随机向量
( X t1 , X t2 ,..., X tm )' 的联合概率分布定义为
Ft1 ,t2 ,..., t m ( x1 , x2 ,..., xm ) = P( X t1 x1 , X t2 x2 ,..., X tm xm )
由这些有限维分布函数构成的全体
m 正整数,
{ Ft1 ,t 2 ,..., tm ( x1 , x2 ,..., xm ), t1 , t 2 ,..., t m T }
就称为时间序列 X t , t T 的概率分布族。
❖例如:
所有的一维分布(m=1)是
Ft1 ( x1 ), Ft2 ( x2 ), Ft3 ( x3 ),....
所有的二维分布(m=2)是
Ft1 ,t2 ( x1 , x2 ), Ft1 ,t3 ( x1 , x3 ),..., Ft2 ,t3 ( x2 , x3 ),....
所有的三维分布(m=3)是
解决方案
研究该序列的低阶矩(均值、方差、自协方差、
自相关系数,也称为特征统计量)
特征统计量
❖均值
对于时间序列X t , t T ,任意时刻的序列值 X t 都是一个随
机变量,记它的分布函数为 Ft (x) ,若满足
-
xdFt ( x)
= D( X t ) = E ( X t − t ) = ( x − t ) 2 dFt ( x)
t
2 2
-
当t取遍所有的观察时刻时,就得到方差函数序列 t , t T 。
2
❖自协方差和自相关系数
对于时间序列 X t , t T ,任取 t, s T ,自协方差函数定义为
r (t , s) = E ( X t − t )( X s − s ).
自相关系数定义为
r (t , s )
(t , s ) = .
D( X t ) D( X s )
2.1.2 平稳时间序列的定义
❖严平稳
▪ 严平稳是一种条件比较苛刻的平稳性定义,它认为只
有当序列所有的统计性质都不会随着时间的推移而发
生变化时,该序列才能被认为平稳。
❖宽平稳
▪ 宽平稳是使用序列的特征统计量来定义的一种平稳性。
它认为序列的统计性质主要由它的低阶矩决定,所以
只要保证序列低阶矩平稳(二阶),就能保证序列的
主要性质近似稳定。
严平稳
则称时间序列 X t , t T 为严平稳时间序列。
宽平稳
❖ 对时间序列X t , t T ,如果满足下面三个条件:
(1) 任取 t T,有 E ( X t ) ;
2
❖特例
▪ 不存在低阶矩的严平稳序列不满足宽平稳条件,例如服从柯
西分布的严平稳序列就不是宽平稳序列
▪ 当二阶矩存在时的严平稳序列才是宽平稳序列
▪ 当序列服从多元正态分布时,宽平稳可以推出严平稳
正态时间序列
时间序列 X t , t T 为正态时间序列,如果任取正整数n,任
取 t1 , t2 ,..., tn T ,相对应的有限维随机变量 X 1 , X 2 ,..., X n 服从n
维正态分布,密度函数为 n
− 1
~ − 1
f t1 ,t2 ,,tn ( xn ) = (2 ) 2 n 2 exp[ − ( ~
xn − ~n )n−1 ( ~
xn − ~n )]
2
~ = ,~ = ( EX , EX ,, EX ),
其中 xn ( X 1 , X 2 , , X n ) n 1 2 n n 为协方差阵
(t n , t1 ) (t n , t 2 ) (t n , t n )
从正态时间序列的密度函数可以看出,其n维分布仅由其均值
向量和自协方差阵决定。换言之,正态时间序列的二阶矩平
稳,等价于分布平稳,所以宽平稳的正态时间序列一定是严
平稳的。
2.1.3 平稳时间序列的统计性质
❖常数均值
EX t = , t T
❖自协方差函数和自相关函数只依赖于时间的平移长
度而与时间的起止点无关
(t, s) = (k , k + s − t ), t, s, k T
二维函数 (t, s) 简化为一维函数 (s − t )
(s − t ) (t, s), t, s T
对于平稳时间序列X t , t T ,任取t (t + k T ) ,该时间序
列的延迟 k 自协方差函数和延迟 k自相关系数定义如下:
➢延迟k自协方差函数
(k ) = (t , t + k ), k为整数
平稳随机序列一定具有常数方差,即
D X t = r (t , t ) = r (0), t T
➢ 延迟k自相关系数
(t , t + k ) (k )
k = =
D X t D X t +k (0)
自相关系数的性质
❖ 规范性
0 = 1且| k | 1, k
❖ 对称性
k = −k
❖ 非负定性:对任意的正整数m,相关阵 m 为对称非负定阵
0 1 m −1
0 m−2
m = 1
m−2 0
m −1
❖ 非唯一性
一个平稳时间序列一定唯一决定了它的自相关系数,但
一个自相关系数未必唯一对应着一个平稳时间序列。
2.1.4 平稳时间序列的意义
数据结构:
❖ 传统统计分析的数据结构:有限个变量,每个变量有多个
观察值
❖ 时间序列数据结构:可列多个随机变量,而每个变量只有
一个样本观察值
平稳性的重大意义
❖ 在平稳序列场合,序列的均值等于常数,这意味着原本含
有可列多个随机变量的均值序列变成了只含有一个变量的
常数序列。
{t , t T } { , t T }
❖ 原本每个随机变量的均值(/方差/自相关系数)只能依靠
唯一的一个样本观察值去估计,现在由于平稳性,每一个
统计量都将拥有大量的样本观察值。这极大地减少了随机
变量的个数,并增加了待估变量的样本容量。极大地简化
了时序分析的难度,同时也提高了对特征统计量的估计精
度。
样本自协方差函数
➢延迟k自协方差函数的估计值:
1 n−k
ˆ (k ) =
n − k t =1
( xt − x )( xt + k − x ), 0 k n
n
1
=
n − k t = k +1
( xt − x )( xt − k − x ), 0 k n
➢总体方差的估计值
1 n
ˆ (0) = t
n-1 t =1
( x − x ) 2
➢延迟k自相关系数的估计值:
ˆ (k )
ˆ k = , 0 k n
ˆ (0)
当延迟阶数k远远小于样本容量n时,
1 n−k
ˆ (k ) n − k t =1
( xt − x )( xt + k − x )
ˆ k = =
ˆ (0) 1 n
n t =1
( xt − x ) 2
n−k
( x − x )( x
t t +k − x)
t =1
n
t
( x
t =1
− x ) 2
2.1.5 平稳性的检验
❖图检验方法(时序图检验、自相关图检验)
特点:操作简单,应用广泛,但结论带有一定主观
性。
❖统计检验方法(单位根检验)
特点:根据特征根是否在单位圆内来判断平稳性,
有多种类型,结果具有客观性。(第6章讲)
1、时序图检验(图检验方法之一)
时序图就是以横轴表示时间,纵轴表示序列值所形成的
二维平面坐标图。
◆基本原理
根据平稳时间序列的均值、方差为常数的性质,
平稳序列的时序图应该呈现序列值始终在一个常数附
近随机波动,而且波动的范围有界、无明显趋势及周
期特征。
例2.1 时序图
1964年—1999年中国纱年产量序列时序图
◼
显然,具有明
显递增趋势,
所以不是平稳
序列。
例2.2 时序图
1962年1月—1975年12月平均每头奶牛月产奶量序列的
◼
时序图
显然,具有明显
递增趋势及规则
的周期性,所以
不是平稳序列。
例2.3 时序图
1949年—1998年北京市每年最高气温序列时序图
◼
显然,最高温度在37度上下波动,所以是平稳序列。
2、自相关图检验(图检验方法之二)
自相关图是以自相关系数为横轴,延迟时期数为倒纵轴,
水平方向的垂线表示自相关系数的大小,是一个二维平面坐
标悬垂线图。
◆基本原理:
根据平稳序列通常具有短期相关性的特点,则随着延
迟期数k的增加,平稳序列的自相关系数会很快地衰减为零
,而非平稳序列的自相关系数较慢地衰减为零。
【注意】时序图通常与自相关图联合使用。
例2.1续 自相关图
◼ 1964年—1999年中国纱年产量序列自相关图
显然,随着延迟时期数的增大,自相关系数慢慢递减到0,
又变负,显示明显的三角对称性,说明具有明显单调趋势,
所以不是平稳序列。
例2.2续 自相关图
1962年1月—1975年12月平均每头奶牛月产奶量序列自相关图
◼
显然,自相关系数长期在0轴一侧,说明有明显单调趋势,且
有明显正弦波动规律,说明有明显周期趋势,不是平稳序列。
例2.3续 自相关图
1949年—1998年北京市每年最高气温序列自相关图
◼
显然,自相关系数除开始外,一直较小,始终在2倍标准差
内,说明序列值一直在纵轴附近波动,所以是一个随机性较强
的平稳序列。
2.2 纯随机性检验
本节内容
❖ 纯随机序列的定义
❖ 纯随机序列的性质
❖ 纯随机性检验
2.2 纯随机性检验
经过平稳性检验,可以判断出序列是否为平稳序
列。若是非平稳,将在后面讨论。对于平稳序列,理
论上都有成熟的建模方法。
是否所有平稳序列都值得建模?
只有那些序列值之间有密切相关关系,历史数据
对未来的发展有一定影响的序列,才值得去挖掘历史
数据中的有效信息,用来预测序列未来的发展。
这也是为什么要进行纯随机性检验的原因。
序列值间有密切相关关系,历史数据对
未来的发展有一定影响的序列
例子:美元对人民币汇率图
序列值间有密切相关关系,历史数据对
未来的发展有一定影响的序列
例子:中国历年的GDP增速
2.2.1 纯随机序列的定义
❖ 描述性定义:
序列值间没有任何相关性,过去的行为对将来的
发展没有丝毫影响,这种序列称为纯随机序列,也称
白噪声序列。
【注意】
➢ 从统计分析的角度而言,纯随机序列是没有任何实际
分析价值的序列。
❖数学定义:
如果时间序列X t , t T 满足如下性质:
(1) EX t = , t T
2 , t = s
(2) (t , s ) = , t , s T
0, t s
则称序列X t , t T 为纯随机序列,也称为白噪声序列,简记为
X t ~ WN ( , 2 ) 。
【注意】
1. 白噪声序列一定是平稳序列,而且是最简单的平稳序列。
2. 纯随机序列是一种没有分析价值的序列(统计不相关)。
例2.4 标准正态白噪声序列时序图
随机产生的1000个服从标准正态分布的白噪声序列观察值
◼
2.2.2 纯随机性序列的性质
1、纯随机性
指白噪声序列各值之间没有任何相关关系,即为“无记忆”
的序列。序列完全无序的随机波动,没有任何值得提取的有用
相关信息。自协方差和自相关系数为0,即
(k) = 0,k 0
k = 0, k 0
【注意】
➢ 对于一个观察值序列,一旦相关信息全部提取(通过拟合模型
进行)完毕,则剩余的残差序列应具有纯随机性。
➢ 检验残差的纯随机性是用于判定序列相关信息是否提取充分的
标准之一。
2、方差齐性
指白噪声序列中每个变量的方差都相等。
DX t = (0) = 2
根据马尔可夫定理,只有方差齐性的序列,用最小二乘
法得到的未知参数估计值才是准确的、有效的。
【注意】
➢ 对于一个观察值序列,一旦相关信息全部提取完毕,则剩
余的残差序列应具有方差齐性。
➢ 检验残差的方差齐性是用于判定序列相关信息是否提取充
分(即白噪声序列)的另一标准。
2.2.1 纯随机性检验
❖ 纯随机性检验也称为白噪声检验,是专门用来检验序
列是否为纯随机序列的一种方法。
❖ 根据纯随机性的定义,只要满足自协方差或自相关系
数为0,即
(k ) = 0, k 0 或 k = 0, k 0
则该序列就具有纯随机性。
◆ 实际上,由于观察值序列的有限性,纯随机序列的样
本自相关系数不会绝对为0。
例2.4续 标准正态白噪声序列样本自相关图
图
该序列自相关系数虽都不为0,但都在0附近随机波动,所
以也看作具有纯随机性。
Barlett定理
❖ 对一个纯随机的时间序列,得到一个n期(观察期数)的观
察序列 {xt , t = 1, ..., n} ,则该序列的延迟 k (k 0) 期的样本自相
关系数将近似服从均值为0,方差为1/n的正态分布,即
1
k ~ N (0, ) , k 0
ˆ
n
样本自相关系数, k 为
随机变量自相关系数
n ˆ k ~ N (0,1)
一、统计假设
H 0:1 = 2 = = m = 0, m 1
(延迟期数小于或等于m 的序列值间相互独立)
H1:至少存在某个 k 0, m 1,k m
(延迟期数小于或等于m的序列值间有相关性 )
二、检验统计量
➢ Q统计量(Box和Pierce)
观测期数 m
Q = n ˆ k2 ~ 2 (m) 延迟期数
k =1
(适合大样本,由barlett定理及卡方统计量定义)
➢ LB统计量(Box和Ljung)
m
ˆ k2
LB = n(n + 2) ( ) ~ 2 (m)
k =1 n−k
(适合小样本,是对Q统计量的修正,因其较准确,现
一般都采用LB统计量)
三 判别原则
❖ 拒绝原假设
2
▪ 当检验统计量大于 1− ( m) 分位点,或该统计量的P 值
小于 时,则可以以 1 − 的置信水平拒绝原假设,认
为该序列为非白噪声序列。
❖ 接受原假设
▪ 当检验统计量小于 1− (m)分位点,或该统计量的P 值
2
白噪声检验
延迟期数
QLB值 P值
由于P值显著大于0.05,所以该序列不能拒绝纯随
机的原假设,可认为是白噪声序列。
思考:本题为何只作了短期延
迟的无自相关性检验,就能判
定为白噪声序列?
首先本题是平稳序列,其次平稳序列一般具有短期相
关性。即若序列有显著相关性,通常只存在延迟时间较
短的序列值间。例子:股票,GDP等。
【注意】
1、一个平稳序列短期延迟的序列值间无显著相关性,则长
期延迟间一般更不存在。
2、一个平稳序列存在短期相关性,则该序列一定不是白噪
声序列,没必要进行长期延迟检验。
例2.3 对1949-1998年北京最高气温序列做白噪声检验( = 0.05 )
白噪声检验
延迟期数
QLB值 P值
结论:由于P值显著大于0.05,所以该序列不能拒绝
纯随机的原假设,可认为是白噪声序列。
例2.5 对1950年—1998年北京市城乡居民定期储蓄所占
比例序列的平稳性与纯随机性进行检验
显然,基
本平稳,
但不很肯
时 定。
序
图 不肯定原
分 因:波动
析 好像存在
趋势,均
值可能不
是常数值
。
自相关图分析(进一步考查平稳性)
显然,延迟3阶后,自相关系数都落在2倍标准差范围以内,而且自相关系
数向零衰减的速度非常快,延迟8阶后自相关系数即在零值附近波动。这
是一个非常典型的短期相关的样本自相关图。
白噪声检验
目的:进一步来验证这个平稳序列值之间是否存在相关关系)
白噪声检验
延迟阶数
QLB值 P值
6 75.46 <0.0001
12 82.57 <0.0001
结论:该序列是平稳的,且蕴涵着值得提取的相关信息,
即可以认为不是白噪声序列(平稳非白噪声序列)。