时间序列预测方法综述_杨海民

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 8

第 46 卷 第 1 期 计 算 机 科 学 Vo

l.46No.1
2019 年 1 月 COMPUTER SCIENCE Jan.
2019

时间序列预测方法综述
杨海民1 潘志松2 白 玮2
(陆军工程大学研究生院 南京 210007)

(陆军工程大学指挥控制工程学院 南京 210007)

摘 要 时 间 序 列 是 按 照 时 间 排 序 的 一 组 随 机 变 量 ,它 通 常 是 在 相 等 间 隔 的 时 间 段 内 依 照 给 定 的 采 样 率 对 某 种 潜 在
过程进行观测的结果。时间序列数据本质上反映的是某个 或 者 某 些 随 机 变 量 随 时 间 不 断 变 化 的 趋 势 ,而 时 间 序 列 预
测方法的核心就是从数据中挖掘出这种规律,并利用其对将来的数据做出估计。针对时间序列预测方法,着重介 绍 了
传统的时间序列预测方法、基于机器学习的时间序列预测方法和基于参数模型的在线时间序列预测方法,并对未 来 的
研究方向进行了进一步的展望。
关键词 时间序列,时间序列预测,机器学习,在线学习
中图法分类号 TP181 文献标识码 A 11896/
DOI 10. j.i
ssn.
1002-137X.
2019.
01.
004

Re
viewo
fTimeS
eri
esPr
edi
cti
on Me
thod

YANG Ha n1 PAN Zh
i-mi ong2 BAI We
i-s i2


Schoo
lofGr
adua
te,
ArmyEng
ine
eri
ng Un
ive
rsi
t fPLA,
yo Nan
jing210007,
Chna)
i 1


Col
legeo
fCommandandCon
tro
lEng
ine
erng,
i ArmyEng
ine
eri
ng Un
ive
rsi
t fPLA,
yo Nan
jing210007,
Chna)
i 2

Ab
str
act Times
eri
esi
sas
eto
frandom va
riab
leso
rde
redi
ntime
stamp.
Iti
sof
tent
heobs
erva
tiono
fanunde
rli
yng

poc
ess,
in wh
ichva
lue
sar
eco
lle
ctedf
rom un
ifo yspa
rml cedt
imei
nst
ans,
t a
cco
rdngt
i oag
ivens
amp
lingr
ate.
Times
e-

resda
tae
ssen
tia
llyr
efl
ect
sthet
rendt
hatoneo
rsomer
andomva
riab
leschangewi
tht
ime.
Thec
oreo
ftimes
eri
esp
re-

ict
ioni
smi
ningt
her
ulef
rom da
taand mak
ingus
eofi
ttoe
stima
tef
utu
reda
ta.
Thi
spape
rempha
tic
alyi
l n
troduc
eda
summa
ryo
ftimes
eri
esp
red
ict
ion me
thod,
name
lyt
het
rad
iti
ona
ltimes
eri
esp
red
ict
ion me
thod,
mach
inel
ear
ningba
sed

imes
eri
esp
red
ict
ion me
thodandon
linet
imes
eri
esp
red
ict
ion me
thodba
sedonpa
rame
te l,
rmode andf
urt
herp
rospe
c-

edt
hef
utu
rer
ese
archd
ire
cti
on.
Ke
ywo
rds Times
eri
es,
Times
eri
esp
red
ict
ion,Ma
chi
nel
ear
ning,
Onl
inel
ear
ning

数据 的 特 点 以 及 相 关 的 时 间 序 列 参 数 模 型 ;第 3 节 主 要 描 述
1 引言
传统 的 时 间 序 列 预 测 方 法 ;第 4 节 主 要 介 绍 基 于 机 器 学 习 的
通俗地说,时间序列是按照时间排序的一组随机变量,它 时间 序 列 预 测 方 法;第 5 节 介 绍 基 于 参 数 模 型 的 在 线 时 间 序
通 常 是 在 相 等 间 隔 的 时 间 段 内 ,依 照 给 定 的 采 样 率 对 某 种 潜 列预 测 方 法;第 6 节 介 绍 时 间 序 列 预 测 方 法 的 进 一 步 研 究 方
在过程进行观测的结果 [
1]
。时间序列数据通常是一系列实 值 向;最后总结全文。
型数据,用 X1 , X3 ,…,
X2 , t∈Ζ)表 示 时 间。 现 实
Xt ∈R(
Xt,
2 时间序列数据的特点以及时间序列参数模型
生活中,在一系列时间点上观测数据是司空见惯的活动,在 农
业、商业、气象、军事和 医 疗 等 研 究 领 域 都 包 含 大 量 的 时 间 序 时间序列数据本质上反映的是某个或者某些随机变量 随
列数据。总之,目前时 间 序 列 数 据 正 以 不 可 预 测 的 速 度 几 乎 时 间 不 断 变 化 的 趋 势 ,而 时 间 序 列 预 测 问 题 的 核 心 就 是 从 数
产生于现实生活中的每一个应用领域。 据中挖掘出这种规 律,并 利 用 其 对 将 来 数 据 做 出 估 计。 本 节
时间序列数据的研 究 方 法 主 要 包 括 分 类、聚 类 和 回 归 预 主要介绍时间 序 列 数 据 的 特 点 以 及 相 关 的 时 间 序 列 参 数 模
测等方面,本文重点 讨 论 时 间 序 列 预 测 方 法。 现 实 生 活 中 的 型,其对时间序列预测方法具有很好的指导作用。
时间序列数据预测问题有很多,包括语音分析、噪声消除 以 1 时间序列数据的特点

2]
2.
及股票市场的分 析 [3-4]等,其 本 质 主 要 是 根 据 前 T 个 时 刻 的 时间序列数据被看 作 一 种 独 特 的 数 据 来 处 理 ,其 具 有 以
观测数据推算出 T +1 时刻的时间序列的值。 下特点。
本文主要介绍时间 序 列 预 测 方 法,第 2 节 介 绍 时 间 序 列 1)时间序列数据 与 其 他 类 型 的 数 据 的 最 大 区 别 在 于 当

到稿日期:
2018-02-04 返修日期:
2018-04-03 2017YFB0802800)资助。
本文受国家重点研发计划“网络空间安全”重点专项(
杨海民(
1990- ),男,博 士 生,主 要 研 究 方 向 为 机 器 学 习、时 间 序 列 预 测,
E-ma
il:
ha nyang_
imi nj@126.
com;潘 志 松 (
1973- ),男,教授,博 士 生
导师,主要研究方向为机器学习、网络空间安全,
E-ma
il:
ha nyang_
imi nj@126.
com(通 信 作 者);白 玮(
1983- ),男,讲 师,主 要 研 究 方 向 为 网 络
空间安全。
22 计 算 机 科 学 2019 年

前 时 刻 的 数 据 值 与 之 前 时 刻 的 数 据 值 存 在 着 联 系 ,该 特 点 表 适当地改进该模型。
明过去的数据 已 经 暗 示 了 现 在 或 者 将 来 数 据 发 展 变 化 的 规 对于 d 值的确定,可以通过对原始时间序列进行差分,然
律,这种规律主要包括了趋势性、周期性和不规则性。趋 势 性 后检验差分后的时间序列的平稳性来确定 d 值 的 大 小。p 值
反 映 的 是 时 间 序 列 在 一 个 较 长 时 间 内 的 发 展 方 向 ,它 可 以 在 和q 值的 大 小 可 以 通 过 偏 自 相 关 函 数 PACF(
Par
tia
lAu
to-
一个相当长的时间内表现为一种近似直线的持续向上或持 续 Co
rre
lat
ionFunc
tion)和 自 相 关 函 数 ACF(Au
to-Co
rre
lat
ion
向下或平稳的趋势。周期性反映的是时间序列受各种周期 因 Func
tion)来确定。偏 自 相 关 函 数 主 要 用 于 在 消 除 中 间 介 入
素影响所形成的一种长度和幅度固定的周期波动。不规则 性 变量 Xt-1 , Xt-k+1 的 影 响 后 确 定 Xt 和 Xt-k 的
Xt-3 ,…,
Xt-2 ,
反 映 的 是 时 间 序 列 受 各 种 突 发 事 件 、偶 然 因 素 的 影 响 所 形 成 相关系数kk ,这个系数称为 k 阶滞后偏自相关 系 数。 自 相 关
的非趋势性和非周期性的不规则变动。 函数可以用于确定自相关系数rk 。kk 和rk 的计算公式如下:
2)时间序列的 平 稳 性 和 非 平 稳 性。 时 间 序 列 的 平 稳 性
( o
kk =crr(
Xt, Xt-2 ,…,
Xt-k|Xt-1 , Xt-k+1 ),
k=1,
2,…

表明了时间序 列 的 均 值 和 方 差 在 不 同 时 间 上 没 有 系 统 的 变
∑ ( Xt-X)(Xt-k -X)
t=k+1
化,而非平稳性意味着均值和方差随着时间推移会发生变 化。 rk = n k=1,
, 2,…

∑( Xt-X)
也 就 是 说,时 间 序 列 的 平 稳 性 保 证 了 时 间 序 列 的 本 质 特 征 不 t=1

最大似然估 计 经 常 被 用 来 进 行 时 间 序 列 模 型 参 数 的 估
仅仅存在于当前时刻,还会延伸到未来。
计,根据观察到的样 本 值,构 建 关 于 模 型 参 数 的 概 率 密 度,求
3)时间序列数据的规模不断变大。一方面,随着各 方 面

解 出 使 其 最 大 的 模 型 参 数 值 ,该 方 法 要 求 噪 声 符 合 一 个 具 体
硬件技术的不断发展,实际应用中数据的采样频率不断提 高,
分布。 下 面 给 出 AR(
p)的 似 然 函 数 求 解 法 ,样 本 (

6]
x1 ,
因 此 时 间 序 列 的 长 度 也 不 断 变 大 ,仅 仅 把 时 间 序 列 看 作 单 纯
xt)中的前 p 个 观 测 值 (
x2 ,…, x1 , xp )合 成 一 个 (
x2 ,…, p×
的一维向量数据来处理不可避免地会带来维数灾难等问题;
1)向量 xp ,其均值为 up ,
σ Vp 表示(

p×p)的协方差矩阵:
另 一 方 面,很 多 实 际 应 用 中 的 时 间 序 列 数 据 不 仅 仅 是 单 纯 的
… γp-1
一维数据,往往包含了一组数值,这一组数值之间也存在着 联 熿γ0 γ1 γ2 燄
γ1 γ0 γ1 … γp-2
系,多维时间序列对时间序列预测提出了新的要求。

σ Vp = γ2 γ1 γ0 … γp-3
实际上,在具体研究时间序列预测方法的过程中,时间 序
   … 
列 数 据 的 这 些 特 点 是 需 要 首 先 考 虑 的 ,这 是 完 成 预 测 工 作 的
燀γp-1 γp-2 γp-3 … γ0 燅
难点和关键。结合这 些 特 点 进 行 时 间 序 列 预 测,才 能 针 对 实
其中,
γj 是 AR(
p)的第j 阶自协方差。前 p 个 观 察 值 的 概 率
际问题给出满意的结果。
密度服从一个高斯分布 N (
up ,2
σ Vp ):
2 相关的时间序列参数模型
2.
经典的时间序 列 模 型 包 括 移 动 平 均 模 型 (Mo fXp ,Xp-1 ,… ,X1 ( xp-1 ,…,
xp , x1 ;
θ)
ving Av
era-
- /2 1/2 1
ge,MA)、自回 归 模 型 ( ve,AR)、自 回 归 移 动 平 -2 -1
Aut
o Reg
res
si =(
2π) p | σ Vp ) | exp[- 2 (
xp -

σ
均模型(
Aut
oReg
res
sive Mov
ing Ave
r ARMA)。 假 设 xt
age,
′Vp-1 (
up ) xp -up )]
表示t 时刻的时间序列的值,
p 和q 表 示 时 间 窗 的 大 小,
εt 表
- /2 -2 k/2 -1 1/2 1
=(
2π) p ( σ ) |Vp | exp[- 2 (
xp -
示t 时刻的白噪声, αp 和β1 ,… ,
α1 ,… , βq 表示权重系数。 2
σ
q)表示为:
MA( ′Vp-1 (
up ) xp -up )]
q 对于样本余下的观察值(
xp+1 , xt),可 应 用 预 测
xp+2 ,…,
Xt= ∑βiεt-i+εt
i=1 误差分解。以前t-1 个观察 值 为 条 件,第t 个 观 察 值 的 概 率
p)和 ARMA(
AR( p,q)分别表示为:
p)来说,只 有 最 近 p 个 观
密度是服从高斯分布的。对于 AR(

Xt= ∑αiXt-i+εt 察值会影响当前时刻的序列值,因此,当t>p 时:
i=1
p q xt|xt-1 ,…,
fXt|Xt-1 ,… ,X1 ( x1 ;
θ)
Xt= ∑αiXt-i+ ∑βiεt-i+εt
i=1 i=1
xt|xt-1 ,…,
=fXt|Xt-1 ,… ,Xt-p ( xt-p ;
θ)
注意 到 对 于 ARMA 模 型,当 权 重 系 数 β1 ,…,
βq 全 为 0 2
1 -(
xt-α1xt-1 -α2xt-2 - … -αpxt-p )
时,其可以被看作一个 AR 模型。因为 MA,
AR 和 ARMA 都 = exp[ ]
槡2πσ2 2σ

具有弱平稳性,其均值和协方 差 都 不 取 决 于t,即 Ε(
Xt )=μ,
这样,全部样本的似然函数为:
ov(
c Xt, Xt-u)(
Xt+k )=Ε( Xt+k -u)=γk ,
k∈Z。
fXt,Xt-1 ,… ,X1 ( xt-1 ,…,
xt, x1 ;
θ)
3 传统的时间序列预测方法 =fXp ,Xp-1 ,… ,X1 (
xp ,xp-1 ,…,x1 ;
θ)×

传统的时间序列预测方法主要是在确定时间序列参数 模 xi|xi-1 ,…,


∏ fXi|Xi-1 ,… ,Xi-p ( xi-p ;
θ)
i=p+1

型 的 基 础 上 求 解 出 模 型 参 数 ,并 利 用 求 解 出 的 模 型 完 成 预 测 最大似然函数难以求解 时,可 以 通 过 EM 算 法 (
Expe
cta-
工作。Box 和 J
enk
ins5 提出的“
[]
Box-J
enk
ins方法”非 常 流 行。 t
ion Max
imi
zat
ion Al
gor
ithm)求 解。EM 经 常 用 来 求 解 含 有

Box-J
enk
ins方法”总的策略主要 包 含 3 步:对 于 给 定 的 时 间 隐变量的概率模型的最大似然 估 计 函 数。EM 算 法 由 Demp-
序列,首先确定适当 的 p,
d,q 值;然 后 通 过 最 有 效 的 方 法 估 t
ser于 1977 年 提 出 7 ,主 要 通 过 两 个 步 骤 进 行 循 环 交 替
[]

计出模型中具体的参数值;最后检验拟合模型的适当性,并 且 计算。
第1期 杨海民,等:时间序列预测方法综述 23

E 步:计算期望,利用对隐变量的现有估计 值 计 算 其 最 大 传统的时间序列预 测 方 法 非 常 依 赖 参 数 模 型 的 选 择 ,能
似然估计值; 否正确选择参数模型在很大程度上决定了预测结果的准确率。
M 步:最大化在 E 步求得的最 大 似 然 估 计 值 来 计 算 参 数
4 基于机器学习的时间序列预测方法
的值。
状态空间方程也可 以 用 来 实 现 时 间 序 列 的 预 测,其 主 要 时间序列数据预测工作本质上与机器学习方法分类中 的
通过卡尔曼滤波来进行求解。卡尔曼滤波是一种连续修正 系 回归分析之间存在着紧密的联系。经典的支持 向 量 机 SVM、
统 的 线 性 投 影 算 法,其 进 行 时 间 序 列 预 测 通 常 是 把 回 归 模 型 贝叶斯网络 BN、矩阵分解 MF 和高斯过程 GP 在 时 间 序 列 预
表示成动态系统方程 形 式 [6,8-9],然 后 应 用 卡 尔 曼 滤 子 对 方 程 测方面均取得了不错的效 果。早 期 的 人 工 神 经 网 络 ANN 也
进行处理,从而进行模型参数的估计,继而预测时间序列。 被用来获取时间序 列 中 长 期 的 趋 势。 随 着 深 度 学 习 的 崛 起,
令 yt 表示t 时刻观察到的变量的一个 (
n×1)向 量,
yt 的 其也可以被看作实现时间序列预测的有效工具。
r×1)向 量ξt 来 表 示,
动态模型可以以可能 观 察 到 的 ( ξt 称 为 1 基于支持向量机的时间序列预测方法
4.
状态变量。yt 的动态系统方程如下: 支持向量机(
Suppo
rtVe
cto
r Ma
chi SVM)是以 统 计 学
ne,
习理论为基础的机 器 学 习 方 法 [12-13],其 主 要 以 VC 维 理 论 和
ξt+1 =Fξt+vt+1
′xt+H′
yt=A 结构风险 最 小 化 原 理 为 基 础 [14-15],同 时 也 是 建 立 在 几 何 距
ξt+wt
其中,
F,′,
A H′分别为(
r×r),(
n×p),( xt 是 外 生
n×r)矩阵, 离 [16]基础上的首 个 学 习 算 法。 支 持 向 量 机 坚 实 的 理 论 基 础

p×1)向 量。 上 述 两 个 方 程 分 别 称 为 状 态 方
或前定变量的( 保 证 了 其 在 解 决 小 样 本 、高 维 数 据 和 非 线 性 问 题 方 面 展 现 出

程和观察方程。 特有的优势。
Kim 17 直接用支持向 量 机 来 预 测 股 票 价 格 指 数 ,并 通 过
[ ]
p)的状态方程和观察方程表示如下:
AR(
p 对比实验 检 验 了 该 方 法 的 可 行 性 。Ge
stl等 18 提 出 把 贝 叶

[ ]

Xt+1 -u= ∑αi(


Xt-i-u)+εt+1
i=1 斯证据框架 [19-20]应 用 到 最 小 二 乘 支 持 向 量 机 [21-22]来 推 断 关

Xt=u+ [
1,0,…,
0][ Xt-1 -u,…,
Xt-u, Xt-p+1 -u] 于 金 融 时 间 序 列 的 数 据 的 模 型 参 数 和 相 关 的 波 动 性 ,从 而 实
为充分利用测量值 和 预 测 值,卡 尔 曼 滤 波 并 不 是 取 其 中 现时间序列的预测。该 方 法 主 要 分 为 3 个 推 断 步 骤,第 1 步
一个作为输出,也不 是 简 单 地 求 平 均 值。 在 卡 尔 曼 滤 波 方 法 利用 最 小 二 乘 支 持 向 量 机 推 断 时 间 序 列 模 型 参 数 ;第 2 步 主
中,计算输出分为预测过程和修正过程,其假设预测过程噪 声 要负 责 推 断 与 正 则 化 和 噪 声 方 差 相 关 的 超 参 数 ;第 3 步 对 时
w(
n)~N(
0,Q),测量噪声 v(
n)~N(
0,R)。 间 序 列 模 型 证 据 进 行 评 估 ,其 主 要 目 的 是 选 择 核 函 数 的 调 节
预测过程中的预测值为: 参数和最重要的输入集合。除 了 把 SVM 应 用 到 金 融 时 间 序
x(
n|n-1)=Ax(
n-1|n-1)+Bu(
n) 列预测外,Me
ll
it等 23 还 利 用 SVM 对 气 象 方 面 的 时 间 序 列
[ ]

最小均方误差矩阵为: 数据进行预测。
n|n-1)=AP(
P( AT +Q
n-1|n-1) Tay 和 Cao 在把 SVM 应用 到 时 间 序 列 预 测 方 面 做 了 很
修正过程中的误差增益为: 多工作。2001 年,他们 直 接 使 用 SVM 来 预 测 金 融 时 间 序 列
K(
n)=P( H T(
n|n-1) n)[
R(n)+ 数据,并 通 过 对 比 实 验 检 验 了 方 法 的 可 行 性 [24];在 此 基 础 上,
H(
n)P( n)]-1
H T(
n|n-1) 他们于 2003 年发 现 SVM 预 测 性 能 的 变 化 受 到 自 由 参 数 的
修正值为: 影响,并提出一种自适应的参数选择方法,该方法主要是把 金
x( n|n-1)+K(
n|n)=Ax( n)[
z(n)-H (
n) n|n-1)]
x( 融时间序列的不 稳 定 性 应 用 到 SVM 中;同 时 通 过 实 验 证 明
最小均方误差矩阵为: 了自由参数对预测性能的影响和自适应参数选择方法对性 能
P(
n|n)= [
I-K(
n)H(
n)]
P(n|n-1)] 的提升。Cao 于 2003 年 又 提 出 把 混 合 专 家 系 统 结 构 (Mi
x-
其中,
x(n)为状态向量,
u(n)为输入 向 量,
z(n)为 观 测 向 量,
A u
treo
fExpe
rts,ME)25-28 应 用 到 SVM 来 进 行 时 间 序 列 预
[ ]

B 是控制输入矩 阵,
是状态转移矩阵, x(n|n-1)为 用 n 时 刻 测。该方法主要分为 2 个 阶 段,第 1 阶 段 利 用 自 组 织 特 征 映
以前的数据对n 时刻进行估计 的 结 果,
x(n|n)为 用 n 时 刻 及 射(
Sel
f-Or
gan
izi
ngFe
atu
r SOM)29 作 为 聚 类 算 法,把
e Map,
[ ]

n 时刻以前的数据 对n 时 刻 进 行 估 计 的 结 果,右 侧 公 式 为 最 输入空间划分成几个不相交的区域;第 2 阶段通 过 多 个 SVM


小预测均方误差, 也就是 SVM 专家系统对每个区域进行预测。
n|n-1)=E{[
P( x( n|n-1)][
n)-x( x(n)-x(
n|n- 2 基于贝叶斯网络的时间序列预测方法
4.

1)] } 贝叶斯 网 络 [30-32](
Baye
sian Ne
two
r BN)本 质 上 是 一 个
k,
其中,
P(n|n)为修正后的 最 小 均 方 误 差 矩 阵,
K(n)为 误 差 增 有向无环图,使用概 率 网 络 进 行 不 确 定 性 推 理。 这 个 有 向 无
益,
H(n)为观测向量。通过卡尔曼滤波进行时 间 序 列 预 测 涉 环 图 中 的 节 点 表 示 随 机 变 量 ,节 点 之 间 的 有 向 弧 代 表 变 量 之
及到自回归模型,所以不可避免要对数据进行分布假设。 间的直接依 赖 关 系。 利 用 贝 叶 斯 网 络 进 行 时 间 序 列 预 测 工
对于求得参数后的 模 型,通 过 残 差 分 析 来 检 验 拟 合 模 型 作,主要是针对 给 定 数 据 集 学 习 出 贝 叶 斯 网 络 结 构 [33],这 部
的适当性并适当改进模型。 残 差 在 数 值 上 等 于 Xt 真 实 值 与 分 工 作 是 构 建 整 个 预 测 模 型 的 基 础 ,其 目 的 就 是 找 出 一 个 最
预测值之差,由于εt是白噪声,合理的残差应该大致满足均值 适合数据的网络结构。
类似于为零、标准差为 1 的正态分布 [10-11]。 s和 Gho
Da sh 在 把 BN 应 用 到 气 象 时 间 序 列 数 据 预 测 方
24 计 算 机 科 学 2019 年

面 做 了 很 多 工 作,他 们 主 要 是 把 时 空 信 息 融 入 到 现 有 网 络 结 对于过程 X1 ,
X2 ,
X3 …, t∈Z,其 任 意 的 有 限
Xt ∈R,
Xt,
构中。2011 年,
Das和 Gho
sh 在 BN 的 基 础 上 提 出 了 一 种
34]

序列都符合多元高斯分布,这 个 过 程 就 是 GP。GP 是 通 过 均
新 的 网 络 结 构,该 结 构 首 次 考 虑 了 气 候 变 量 间 的 时 空 相 互 关 值 函 数 和 协 方 差 核 函 数 对 数 据 进 行 非 参 数 形 式 的 表 示 ,其 中
系。在天气状况的预 测 过 程 中,首 先 对 气 候 变 量 间 的 时 空 关 协 方 差 核 函 数 代 表 了 数 据 之 间 的 依 赖 关 系 ,因 此 找 到 一 个 合
系 进 行 预 测,预 测 完 成 后 再 把 这 种 关 系 应 用 到 最 终 的 天 气 状 适的核是 GP 对数据进行 建 模 的 关 键 [54-57]。 采 用 GP 进 行 时
况预测中。2017 年,他们还提出了 基 于 语 义 贝 叶 斯 网 络 的 多 间序列预测时,通常 都 会 假 设 噪 声 服 从 高 斯 分 布。 文 献 [
58]
元气象时间序列 预 测 网 络 s
emBne
t ,其 本 质 也 是 把 时 空 信
35]

介绍 了 高 斯 过 程 卷 积 模 (
Gaus
sian Pr
oce
ss Convo
lut
ion Mo-
息作为领域知识具体化到语义贝叶斯网络中。 l,
de GPCM),其通过两个 阶 段 的 非 参 数 生 成 过 程 对 稳 定 时 间
3 基于矩阵分解的时间序列预测方法
4. 序列进行建模,改进 了 GP 在 对 时 间 序 列 数 据 进 行 建 模 过 程
矩阵分解(Ma
tri
xFa
cto
riz
aton,MF)也 是 机 器 学 习 中 的
i 中的不足。GPCM 是 一 个 连 续 时 间 下 的 非 参 数 窗 口 移 动 平
一项重要工 作,其 在 协 同 过 滤 [36-40]、协 作 排 序 [41-42]和 社 会 网 均过程,在某些条件下,其本质上是一个带有以概率形式定 义
络分析 43]

等领域都发挥了重要作用。 MF 本质就是针对原始 的非参数核 的 高 斯 过 程。GPCM 通 过 变 分 推 断 过 程 对 协 方
矩 阵 找 出 两 个 小 规 模 矩 阵 ,使 得 这 两 个 小 矩 阵 的 乘 积 最 大 程 差 核 进 行 封 闭 形 式 的 概 率 估 计 ,从 而 实 现 对 时 间 序 列 数 据 的
度地近似拟合原始矩阵。高维时间序列的表示可以采用矩 阵 预测。 自 动 贝 叶 斯 协 方 差 发 现 (Au
toma
tic Baye
sian Cova-
形式,其每一列对应的是时间点,每一行对应的是一维的时 间 r
ianc
eDi
scove
r ABCD)对时间序列数据构建自然语言描 述,
y,
序列特征。 使用带有复合协方差核函数的 GP 对 未 知 的 时 间 序 列 进 行 描
MF 在处理拥有缺失数据的时 间 序 列 数 据 预 测 中 取 得 了 述,但 利 用 单 一 的 时 间 序 列 数 据 学 习 到 的 核 对 数 据 的 描 述 往
很好的效果。网络流 量 数 据 本 质 上 是 一 个 时 间 序 列 数 据 ,其 往不够充分。 对 此,Hwang 等 [59]提 出 使 用 两 个 相 关 联 的 核
中存在缺失值 的 情 况 特 别 常 见。Zhang 等 于 2009 年 利 用 矩 学 习 方 法 对 多 个 时 间 序 列 进 行 建 模 ,实 验 表 明 该 方 法 的 准 确
阵 分 解 对 网 络 流 量 数 据 进 行 估 计 ,提 出 一 种 新 的 稀 疏 正 则 矩 性更高。
阵分解( 5 基于深度学习的时间序列预测方法
[ ]
Spa
rsi
tyRegu
lar
ized Ma
tri
xFa
cto
riz
ati SRMF)44
on, 4.
框架,该框架是在原 有 MF 的 基 础 上 充 分 利 用 网 络 流 量 数 据 深度学习在语音识 别、计 算 机 视 觉 和 自 然 语 言 处 理 等 领
所蕴含 的 时 空 信 息,进 一 步 提 高 网 络 流 量 预 测 的 准 确 性 。 域 取 得 了 重 大 突 破,也 可 以 被 看 作 实 现 时 间 序 列 预 测 的 有 效
Zhang 等 45 于 2010 年对手机无线网中的定位技术进行研究, 工具。深度学习在本 质 上 是 多 层 神 经 网 络,其 主 要 模 型 包 括
[ ]

真 实 的 手 机 轨 迹 本 质 上 也 是 一 个 时 间 序 列 数 据 ,这 些 轨 迹 数 卷积神经 网 络 (
Convo
lut
iona
lNeu
ralNe
two
r CNN)和 循 环
k,
据具有低秩特征,从 而 选 择 MF 来 进 行 过 处 理。 在 现 有 定 位 神经网 络 (
Recu
rren
t Neu
ralNe
two
r RNN)。 利 用 深 度 模
ks,
技 术 研 究 中,结 合 时 间 稳 定 性 和 数 据 低 秩 特 征 的 新 机 制 确 实 型 来 预 测 时 间 序 列 在 本 质 上 与 其 他 领 域 没 有 太 大 区 别 ,只 需
减小了定位误差。 对模型的输入和输出做好严格定义。
Yu 等 46 在 2016 年的 NIPS 会议上提出一种时间正则 矩 文献[
60]用带有 受 限 玻 尔 兹 曼 机 (
[ ]
Res
tri
ctedBo
ltzmann
阵分 解 (
Tempo
ralRegu
lar
ized Ma
tri
x Fa
cto
riz
aton,TRMF)
i Ma
chi
ne RBM)的 深 度 置 信 网 (
s, Deep Be
lie
f Ne
two
rk,
DBN)
技 术 来 处 理 高 维 时 间 序 列 的 预 测 问 题 ,其 不 仅 能 很 好 地 处 理 来处理时间序列预测问题;文献[
61]比较了 DBN 和集成去 噪
高维数据中 的 缺 失 数 据,还 展 现 出 了 对 噪 声 数 据 的 鲁 棒 性 。 自编码器(
Sta
ckedDeno
isi
ng Au
to-enc
ode
rs)在时间序 列 预 测
TRMF 使用一种新 的 正 则 化 算 子 来 表 达 时 间 序 列 数 据 在 时 62]用深度网络来预测室内温 度;文
问题上的性能差异;文献[
间 维 度 上 的 这 种 依 赖 性,不 同 于 以 往 的 用 基 于 图 的 正 则 化 算 63]用深度网络来预测交通流量。这些文献中对深度 学 习
献[
子 44-45,
[ 47]
来处理这种依赖 性 的 方 法,该 正 则 化 算 子 克 服 了 基 模型都只是简单直接的运用,没有结合时间序列数据的性 质。
于图的正则化算子不能表示时间序列数据之间负相关依赖 性 64-66]对利用 深 度 学 习 来 完 成 各 种 时 间 序 列 预 测 的 问
文献[
的缺陷。另外,基于图 的 正 则 化 算 子 表 示 的 是 时 间 序 列 数 据 题做了很好的总结。
之 间 明 确 的 时 间 依 赖 关 系 ,在 实 际 应 用 中 这 些 明 确 的 依 赖 关 除了利用数据来训练新的深度学习网络结构以完成预 测
系往往不容易获取。 任务外,还可以对已有的深度学习模型进行修改,以实现预 测
4 基于高斯过程的时间序列预测方法 目标。Boovykh 等 67 对现有的深度 学 习 模 型 WaveNe
t68 进
[ ] [ ]
4. r
高斯过程(
Gaus
sPr
oce
s GP)最 早 于 20 世 纪 90 年 代 末
s, 行修改,从而实现对大范围历史数据和序列之间关系的使用。
被 提 出。 在 2006 年,Ra
smus
sen 和 Wi
ll
iams 在 Gau
ssi
an 6 基于混合模型的时间序列预测方法
4.
ng 48 一书中从机器学习核方法 在利用深度学习来预测时间序列时,上述工作对深度学习
[ ]
Pr
oce
sssfo
e r Mach
ineLearn

角 度 对 高 斯 过 程 重 新 加 以 阐 述 ,并 对 回 归 和 分 类 两 类 问 题 做 模型都只是简单的直 接 应 用,没 有 结 合 时 间 序 列 数 据 的 特 点。
了系统的理论和数值实验分析。核函数的采用保证了高斯 过 在时间序列预测问题中,我们更加倾向于利用结合时间序列数
程 具 有 很 强 的 处 理 非 线 性 问 题 的 能 力 ,其 还 具 有 其 他 很 多 优 据特点的 混 合 模 型 [69-74]来 完 成 预 测 工 作。 文 献 [
69-71]结 合
点 49-53]

。高斯过程 通 常 也 可 以 被 看 作 是 一 个 采 用 概 率 分 布 ARIMA 模型 和 多 层 感 知 机 (Mu
lti
lae
yrPe
rce
pton,MLP)来 预

进 行 描 述 的 正 态 随 机 过 程 ,可 以 对 复 杂 的 时 变 非 参 数 函 数 进 测时间序列数据,随着深度网络结构的发展,
CNN 和 RNN 的
行通用简易求解,具有很灵活的非参数性质,能够对时间序 列 混合模型也被用 来 完 成 预 测 工 作。 下 面 主 要 介 绍 文 献 [
72-
数据进行有效的估计。 74]的工作。
第1期 杨海民,等:时间序列预测方法综述 25

72]提 出 了 一 种 SOCNN(
文献[ Sign
ifi
canc
e-Of
fse
tCon- 剧增长给传统 的 批 处 理 机 器 学 习 预 测 方 法 带 来 了 严 峻 的 挑
vo
lut
iona
lNeu
ralNe
two
rk)模型来解 决 多 元 非 同 步 时 间 序 列 战,也严重影响了预测方法的效率,利用在线学习方法来进 行
数据的预测问题,这个模型受到标准的 AR 模型和 RNN 中门 时间序列数据预测成为了新的趋势。相对于传统的批处理 学
机制思路的启发。门 机 制 的 原 理 可 以 用 f(
x)=c(
x)σ(
x) 习方法,在面对新样本到来时,在线学习方法不需要处理整 个
f 表示输 出 函 数,
表示, c 表 示 候 选 输 出,
σ是元素值在[
0,1] 数据集,仅需要处理 这 个 新 的 样 本,大 大 提 高 了 方 法 的 效 率。
之间的矩阵, 运算为矩阵的 Hadama
rd 乘 积,即 对 应 元 素 相 目前利用在线学习对时间序列数据进行预测的相关工作还 比
乘。门机制的本质其实是对原始输出赋予不同的权重后再 输 Anava等 75 提出基于参数模 型 的 在 线 时 间 序 列 预 测 算
较少, [ ]

出。文中研究 的 金 融 数 据 往 往 来 自 不 同 的 途 径 和 不 同 的 时 法 ARMA-ONS,其本质主要是通过在线算法对 AR 模型参数


刻,因此这些数据是非同步的。对于这些多元非同步数 据,通 进行求解,并随新时间序列数据的到来更新模型参数的过 程,
过 增 加 一 维 时 间 间 隔 特 征 ,可 以 将 其 转 化 为 标 准 的 同 步 时 间 这样就把传统的时间序列模型和在线学习有效结合起来。
序列数据。多元时间序列 数 据 { x2 ,…,
x1 , xT }( n
xt ∈R )展 开 ARMA-ONS 算法利 用 牛 顿 法 ONS 来 求 解 AR(
p+m)
后如矩阵 Xn×T 所示: 的权重系数,此方法的主要贡献是证明了在在线学习中,可 以
x11 x12 x13 … x1T 用 AR( m∈Z)来 预 测 ARMA(
p+m)( p,q)。 相 对 于 ARMA
熿 燄
x21 x22 x23 … x2T (
p,q)模型, p+m)模 型 只 涉 及 到 权 重 系 数 α1 ,…,
AR( αp+m ,
Xn×T = x31 x32 x33 … x3T 其求解更加 容 易。 另 外,在 线 算 法 ARMA-ONS 对 时 间 序 列
   …  进 行 分 析 的 优 势 还 体 现 在 不 需 要 对 噪 声 分 布 进 行 假 设 ,而 传
燀xn1 xn2 xn3 … xnT燅 统时间序 列 预 测 算 法 通 常 会 假 设 噪 声 服 从 高 斯 分 布 。AR-
SOCNN 由两个卷 积 神 经 网 络 CNN 构 成,分 别 是 o
ffs
et MA-ONS 的具体流程如算法 1 所示。
和s
ign
ifi
c e。o
anc ffs
et网络负责对矩阵 Xn×T 的列向量进行处 算法 1 ARMA-ONS(
p,q)
理,也就是在特征维度上对多元时间序列数据进行评估,其 本 1.输入:
ARMA 模型参数 p,
q;步长 η;(
m+p)× (
m+p)矩阵 A0
质上是一个 特 征 选 择 过 程 ;而 s
ign
ifi
c e 网 络 对 矩 阵 Xn×T
anc 2.设置 m=q·l TLMmax)-1)
og1-ε((
的行向量进行处理,其本质上类似于一个自回归 AR 过 程,主 3.任意选择 γ1∈κ
要在时间维度上对多元时间序列进行选择。最后通过权重 向 f
4.o o(
rt=1t T-1)do
量与 经 过 o
ffs
et和 s
ign
ifi
c e 处 理 过 的 数 据 的 Ha-
anc 5. 预测 Xt(t ~ t T
m+p
γ )= ∑ γiXt-i=γt Xt。
i=1
dama
rd 乘积来获得预测结果。文 中 通 过 实 验 将 SOCNN 与
6. 观察 Xt 的值并计算损失l
t(

γ )。
CNN 和 LSTM 做了对比,结果表明,
VAR, SOCNN 对异 步 时 T
γ ),更新

7. t= lt( At←At-1+ t t
间序 列 数 据 取 得 最 小 的 均 方 误 差 (Me
an Squa
red Er
ror, At
-1
MSE)。 8. γt+1←∏ (
γt-ηAt · t)
κ

文献[
73]提出了一种混合模型 R2N2 (
Res
i lRNN)来
dua endf
9. or

对多元时间序列问题进行 预 测。R2N2 首 先 通 过 一 个 线 性 模 下面主要以算法 1 为例,形式化在线时间序列预测 问 题。


z76 于 2011 年对在线学 习 做 了 定 义:在 线 学 习 是 指 在
[ ]
型 f,例如 VAR 等,对 数 据 进 行 预 测,在 此 基 础 上 通 过 RNN Shwa
rt
对线性模型预测得到的残差进行预测。最终的预测结果通 过 给 定 之 前 全 部 或 者 部 分 问 题 的 正 确 答 案 ,可 能 还 有 些 额 外 信

f 与 RNN 预测的残差 相 加 获 得。 文 中 实 验 只 是 简 单 对 比 了 息的基础上,学习者对现有问题进行回答的过程,这个过程 会


R2N2 和单一的 RNN,
VAR 的 效 果 差 距,证 明 了 R2N2 能 取 一直持续下去。根据 在 线 学 习 的 定 义,在 线 时 间 序 列 预 测 的
得更好的预测效果。 主要任务就是在t时 刻 对 当 前 时 刻 的 时 间 序 列 值 Xt 进 行 估
74]提 出 一 种 新 的 深 度 学 习 框 架 LSTNe
文献[ t(Long- 计,在得到 Xt 的真实值后,根据损失对模型参数进行调整,在
andSho
rt-t
erm Time-s
eri
esNe
two
rk)来解决多元时间序列 数 t+1 时刻到来时继续进行估计并一直持续下去。 对 于 AR-
据的预测问题。LSTNe
t使 用 CNN 来 提 取 数 据 间 短 期 的 依 MA-ONS 算法,定义t时刻的损失函数为:
赖关系,通过 RNN 来发现数据长 期 的 模 式 和 趋 势,充 分 利 用 ~ m+p
lt(
γt)=lt(
Xt,
Xt( Xt,(∑γitXt-i))
γt))=lt(
i=1
了 CNN 和 RNN 的 优 点。LSTNe
t由 4 个 单 元 构 成,即 卷 积 ~
其中, γt)是对 Xt 的 预 测 值,
Xt( t
γ1 ,

γm+p 是t 时 刻 AR
γ2 ,…,

单元、循环单元、循环跳跃单元和自回归单元。卷积单元 和 循
m+p 和p 分 别 表 示 AR 和 ARMA 时 间 窗 的 大
的权重系数,
环单元分别 实 现 了 CNN 和 RNN 功 能。 循 环 跳 跃 单 元 主 要
小。为了保证预测误 差 最 小,在t 时 刻,ARMA-ONS 算 法 的
是 在 循 环 单 元 上 做 出 修 改 ,从 而 能 够 成 功 获 得 数 据 的 周 期 模
式。相对于一般的 RNN,循环跳跃单元中隐含层与 一 个 周 期 优化目标函数是:
T 2
之前时刻的隐含层 建 立 联 系,而 不 是 前 一 时 刻 的 隐 含 层。 增 γt=a
r n‖Xt-γ Xt‖2
g mi
γ

加自回归单元主要是为了防止神经网络对输入数据尺寸变 化 t.t≥m+p
s.
不敏感而影响预测结果的精度。 向量 γt 表 示 [
其中, t t
γ2 ,…,
γ1 ,
t T
Xt 表 示 [
γm+p ] , Xt-2,…,
Xt-1,

Xt- (m+p)] 。在t时刻,求解出 γt 并利用其对 Xt+1 做出预测。
5 基于参数模型的在线时间序列预测方法
在线算法中 定 义 了 r
egr
et77 来 衡 量 在 线 优 化 算 法 的 优
[ ]

随着计算机网络技 术 的 广 泛 应 用 和 普 及,数 据 规 模 的 急 劣,其 定 量 描 述 了 在 线 算 法 在 不 同 时 刻 损 失 的 和 与 批 处 理 最


26 计 算 机 科 学 2019 年

优解获得的 损 失 之 间 的 差 异 。 一 种 好 的 在 线 算 法 需 要 保 证 3)时间序列数 据 往 往 包 含 异 常 数 据 点,在 时 间 序 列 中,




egr
et与时间长度 T 之间 服 从 次 线 性 关 系,即l
imr
egr
et/T= 如 果 一 个 数 据 点 与 大 部 分 数 据 点 的 行 为 明 显 不 一 致 ,其 通 常
T→ ∞

0,从而可以说明在线算法与批处理算法之间获得的损失差 异 被确定为异常点。换 句 话 说,如 果 时 间 序 列 中 的 大 部 分 数 据

可以忽略。对于在线 时 间 序 列 预 测 方 法,同 样 使 用 r
egr
et来 是 系 统 或 者 程 序 正 常 运 行 时 产 生 的 ,那 么 异 常 点 就 是 这 些 系

评价权重系 数 求 解 算 法 的 合 理 性。 对 于 ARMA-ONS 算 法, 统或者程序以不正常的方式运行产生的。研究者可以考虑 如

γ)表示,其定义如下:
用 RT ( 何 通 过 在 线 算 法 对 时 间 序 列 中 的 异 常 点 进 行 检 测 ,从 而 减 小
T T 预测方法的误差。
RT (
γ)= ∑lt(
γt)-mi
n∑lt(
γ)
t=1 γ t=1 结束语 本文首先 介 绍 了 时 间 序 列 的 概 念,然 后 阐 述 了
ARMA-ONS 算 法 利 用 在 线 牛 顿 法 ONS78 来 求 解 AR
[ ]
时间 序 列 数 据 的 特 点,在 此 基 础 上 分 3 个 方 面 介 绍 了 时 间 序
的权重系数。ONS 基于著名的 Newt on 离 线 优 化 方
onRaphs 列预测方法,包括传统的时间序列预测方法、基于机器学习 的
法,并利用了损失 函 数 的 二 阶 信 息,它 的 r
egr
et为 O(
logT), 时间序列预测方法以及基于参数模型的在线时间序列预测 方
与时间长度 T 之 间 是 次 线 性 关 系。 因 此,ARMA-ONS 算 法 法。时间序列数据规模的急剧增长为我们进一步的研究指 明
的权 重 系 数 调 整 策 略 即 算 法 1 中 的 步 骤 7 和 步 骤 8 是 合 理 了 方 向,包 括 如 何 将 基 于 参 数 模 型 的 在 线 时 间 序 列 预 测 方 法
的,其中: 与 现 实 世 界 中 时 间 序 列 数 据 本 身 的 特 点 相 结 合 ,如 何 将 在 线
At
T 时 间 序 列 预 测 方 法 与 多 元 时 间 序 列 模 型 相 结 合 ,如 何 处 理 时
∏(
y)=a
r n(
g mi y-x)At(
y-x)
κ x∈κ
间序列数据中的异常点,这些都需要研究者进一步努力。
下面明确算法 1 中 的 几 个 参 数,这 些 参 数 的 定 义 具 体 参
照文献[
75]。向量 γt 的选择范围用κ 表示: 参 考 文 献
m+
κ= {
γ∈R p ,
|γi|<1,
m,p∈N,
i∈ [
1,m+p]}

1] YUANJD,WANG Z H.
Rev
iewo
fTimeSe
rie
sRep
res
ent
ati
on
κ 中任意两个向量之间的最大距离用 D 表示:
and C
las
sif
ica
tion Te
chn
i s [
que J].Compu
ter Sc
i e,
enc 2015,
D= max ‖γ1 -γ2 ‖2 ≤ 2max‖γ‖2 =2 槡(
m+p) 42( 1-7.(
3): inCh
ine
se)
γ1 ,
γ2 ∈κ γ∈κ

γt )‖ 的 上 确 界,
G 是损失函 数 导 数 ‖ lt ( Im+p ,
A0 =ε 原继东,王志海 .时间序列的表示与分类算法综述[
J].计 算 机 科
学,
2015,
42(
3):
1-7.
1 1
ε= 2 2 , n{
η= 2 mi Im+p 表示 m +p 阶的单 位 矩 阵,
λ},
4GD,
η D [
2] GAOJ,
SULTAN H,
HUJ,
eta
l.Deno
isngNon
i line
arTimeSe-

λ 和L 分别表示损失函数lt 的 exp-conc av
ity 常数和 L
ips
chi
tz r
iesby Adap
tiveF
ilt
erngand Wave
i letShr
inkage:A Compa
ri-

Mmax 是 ARMA 中噪声期望的上界。


常数, on [
s J].
IEEES
igna
lPr
oce
ssngLe
i tte
rs,
2010,
17(
3):
237-240.

3] ROJO-ALVAREZ J L,MARTINEZ-RAMON M,
PRADO-
6 进一步的研究方向 CUMPLIDO M,
eta
l.Suppo
rt Ve
cto
r Me
thodf
orRobus
t AR-
MA Sys
tem I
den
tif
ica
tion [
J].
IEEE Tr
ans
act
ions on S
igna

时间序列预测方法 虽 然 经 历 了 很 长 时 间 的 发 展,但 数 据
Pr
oce
ssng,
i 2004,
52(
1):
155-164.
规模的急剧增长给传统的批处理机器学习预测方法带来了 严

4] GRANGER C W J,NEWBOLD P.
For
eca
stng Ec
i onomi
c Time
峻的挑战,也严重影 响 了 预 测 方 法 的 效 率。 利 用 在 线 学 习 方
Se
ris [M].
e rk:
New Yo Academi
cPr
ess,
1986.
法 来 进 行 时 间 序 列 数 据 预 测 成 为 新 的 趋 势 ,这 也 为 我 们 进 一

5] BOX G,
JENKINS G.
Time Se
rie
s Ana
lys
is,
For
eca
stng and

步的研究指明了方向。
Con
trl[M].
o Hoden-Day,
l 1990.
1)将基于参数模 型 的 在 线 时 间 序 列 预 测 方 法 与 现 实 世
( [
6] HAMILTONJ.
TimeSe
rie
sAna
lys
is [M].
Pri
nce
ton:
Pri
nce
ton
界中时间序列数据本身的特 点 相 结 合。Anava 等 提 出 的 方 法 Un
ive
rsi
tyPr
ess,
1994.
主 要 是 针 对 传 统 的 时 间 序 列 模 型 ,往 往 忽 视 了 现 实 世 界 中 时 [
7] DEMPSTER A P,
LAIRD N M,
RUBIN D B.Max
imum L
ike
li-
间 序 列 数 据 本 身 的 特 点 和 性 质 ,特 别 是 大 数 据 环 境 下 以 流 形 hoodf
romI
ncomp
let
eDa
tav
iat
heEM Al
gor
ithm [
J].
Jour
nal
式存在的时间序列数据的特点。研究者可以考虑提出一种 新 o
fthe Roya
lSt
ati
sti
cal So
cie
ty,Se
ris B (Me
e thodo
log
icl),

的基于平稳稀疏 AR 模 型 的 在 线 时 间 序 列 预 测 算 法,在 现 有 1977,


39(
1):
1-38.

8] DURBIN J,
KOOPMAN S J.
Time Se
rie
s Ana
lys
is by S
tat

算法 ARMA-ONS 优化目标的基础上增加模型平稳 项 和 数 据
稀疏项,从而既保留现有参数模型 AR 本身的性质,又 兼 顾 时 Spa
ce Me
thods [M].
Oxf
ord:
Oxf
ord Un
ive
rsi
tyPr
ess,
2012.

9] KALMAN R E.
A New App
roa
cht
oLi
nea
rFi
lte
ringandPr
e-
间序列数据自身的特点。

ict
ion Pr
obems [
l J].J
our
nalo
fFl
uids Eng
ine
erng,
i 1960,
2)将在线时间序 列 预 测 方 法 与 多 元 时 间 序 列 模 型 相 结

82(
1):
35-45.
合。在传统的多元统 计 分 析 中,通 常 是 以 批 处 理 的 方 法 对 多

10]ALQUIER P,
LI X,WINTENBERGER O.
Pred
ict
ion o
f Time
元时间序列模型的参数进行估计。这些方法包括条件似然 方
Se
rie
sby S
tat
ist
ica
l Le
arn
ing:Gene
ral Lo
sse
sand Fa
st Ra
tes
法 和 确 切 似 然 方 法,这 两 种 方 法 通 常 会 假 设 噪 声 服 从 高 斯 分 [
J].
Dependenc
e Mode
ll
ing,
2014,
1:65-93.
布,而在现实世界中,噪声往往不可能总是正好服从标准的 正 [
11] KUZNETSOV V,MOHRI M.
Gene
ral
iza
tion Boundsf
or Time
态分布。目前利用在线学习对时间序列数据进行预测的相 关 Se
rie
sPr
edi
cti
on wi
th Non-S
tat
iona
ry Pr
oce
sss [M ]∥ Al
e go-
工 作 还 比 较 少,研 究 者 可 以 考 虑 如 何 在 在 线 时 间 序 列 预 测 中 i
rthmi
c Le
arn
ing Theo
ry.Sp
ringe
rIn
ter
nat
iona
l Pub
lish
ing,
更方便地求解多元时间序列模型的参数。 2014:
260-274.
第1期 杨海民,等:时间序列预测方法综述 27


12]CRI
STIANININ,
TAYLORJS.
Int
roduc
tiont
oSuppo
rtVe
cto
r Sp
ri r,
nge 1989.
Ma
chi
nes [M].李国 正,王 猛,曾 华 军,译 .北 京:电 子 工 业 出 版 [
30]PEARL J.Fus
ion,
Propaga
tionand S
truc
tur
ingI
n Be
lie
f Ne
t-
社,
2004. rks [
wo J].
Art
if
ici
alI
nte
ll
i e,
genc 1986,
2(3):
241-288.

13]ZHANG X G.
Int
roduc
tiont
oSt
ati
sti
calLe
arn
ing Theo
ryand [
31]COOPER G F,HERSKOVITS E.A Baye
sian Me
thodf
ort
he
Suppo
rt Ve
cto
r Ma
chi
nes[
J].Ac
ta Au
toma
tic
aSi
nia,
c 2000, I
nduc
tion o
f Pr
obab
ili
sti
c Ne
two
rksf
rom Da
ta[
J].Ma
chi
ne
26(
1):
32-41.(
inCh
ine
se) Le
arn
ing,
2008,
9(4):
309-347.
张 学 工 .关 于 统 计 学 习 理 论 与 支 持 向 量 机 [
J].自 动 化 学 报, [
32]ZHANG M,
ZHOU Z.Mu
lti-Labe
lNeur
alNe
two
rks wi
th Ap-
2000,
26(
1):
32-41. l
pic
ati
ont
o Func
tion Genomi
csand Tex
t Ca
tego
riz
aton [
i J].

14]VAPNIK V N.
TheNa
tur
eofS
tat
ist
ica
lLe
arn
ingTheo
ry [M]. IEEE Tr
ans
act
ionson Knowl
edgeand Da
taEng
ine
erng,
i 2006,
张学工,译 .北京:清华大学出版社,
2000. 18(
10):
1338-1351.

15]VAPNIK V N.
Sta
tis
tic
alLe
arn
ing Theo
ry [M].许 建 华,张 学 [
33] MEZJ,MATEOJL,
PUERTAJ.
Lea
rni
ngBaye
sian Ne
two
rks
工,译 .北京:电子工业出版社,
2004. by Hi
llC
limb
ing:Ef
fic
ien
t Me
thods Ba
sedon Pr
ogr
ess
ive Re-

16]CRI
STIANINI N,
TAYLOR J S.
An I
ntr
oduc
tion t
o Suppo
rt s
tri
cti
ono
ftheNe
i rhood [
ghbo J].
Dat
a Mi
ningKnowl
edgeDi
s-
Ve
cto
r Ma
chi
nes[M].
Cambr
idge:
Cambr
idgeUn
ive
rsi
tyPr
ess, c
ove
ry,
2011, 1-2):
22( 106-148.
2000. [
34]DAS M,GHOSH S K.A Pr
obab
ili
sti
c App
roa
chf
or We
athe


17]KIM K.
Financ
ialTimeSe
rie
sFo
rec
ast
ing Us
ingSuppo
rt Ve
c- Fo
rec
ast Us
ing Spa
ti empo
o-t ralI
nte
r-r
ela
tionsh
ip among C
li-

tr Ma
chi
nes[
J].
Neur
ocompu
ting,
2003,
55(
1):
307-319. ma
teVa
riab
les[
C]∥I
nte
rna
tiona
lCon
fer
enc
eonI
ndus
tri
aland

18]GESTEL T V,
SUYKENSJ A K,
BAESTAENS D E,
eta
l.F
i- I
nfo
rma
tionSys
t IEEE,
ems. 2015.
nanc
ial Time Se
rie
s Pr
edi
cti
on Us
ing Le
ast Squa
res Suppo
rt [
35]DAS M,
GHOSH S K. t:
SemBne A Seman
ticBaye
sian Ne
two
rk
Ve
cto
r Ma
chi
nes wi
thi
n The Ev
idenc
e Fr rk [
amewo J].
IEEE f
or Mu
lti
var
iat
ePr
edi
cti
ono
f Me
teo
rol
ogi
calTimeSe
rie
s Da
ta
Tr
ans
act
ionson Neur
alNe rks,
two 2001,
12(
4),
809-821. [
J].
Pat
ter
nRe
cogn
iti
onLe
tte
rs,
2017,
93:
192-201.

19] MACKAY DJC.
Baye
sianI
nte
rpo
lat
ion [
J].
Neur
alCompu
ta- [
36]KOREN Y,
BELL R,
VOLINSKY C.Ma
tri
x Fa
cto
riz
ati
on

ion,
1992,
4(3):
415-447. Te
chn
ique
sfo
r Re
commende
r Sys
tems [
J].Compu
ter,
2009,

20] MACKAY DJC.
Probab
le Ne
two
rksa
ndP
lau
sib
lePr
edi
cti
ons- 42(
8):
30-37.
A Rev
iewo
fPr
act
ica
lBaye
sian Me
thodsf
orSupe
rvi
sed Neur
al [
37]KOREN K.
Fac
tor
iza
tion Me
ets The Ne
i rhood:
ghbo A Mu
lti
fa-
Ne rks [
two J].
Netwo
rk Compu
tat
ioni
n Neur
alSys
tems,
1995, e
ctedCo
llabo
rat
iveF
ilt
er l[
ng Mode
i C]∥ACM S
IGKDDI
nte
r-
6(
3):
469-505. na
tiona
lCon
fer
enc
eon Knowl
edgeDi
scove
ryand Da
ta Mi
ning.

21]SUYKENSJ A K,VANDEWALLE J.Le
astSqua
resSuppo
rt ACM,
2008:
426-434.
Ve
cto
r Ma
chi
ne C
las
sif
ies[
r J].Neur
al Pr
oce
ssng Le
i tte
rs, [
38]SALAKHUTDINOV R,MNIH A.
Probab
ili
sti
c Ma
tri
xFa
cto
ri-
1999,
9(3):
293-300. z
aton [C]∥I
i nte
rna
tiona
l Con
fer
enc
e on Neur
alI
nfo
rma
tion

22]SUYKENSJ A K.
Lea
stSqua
resSuppo
rtVe
cto
r Ma
chi
nesf
or Pr
oce
ssngSys
i tems.
Cur
ran As
soc
iat
e nc.,
sI 2007:
1257-1264.

las
sif
ica
tion and Non
line
ar Mode
ling [
J].Neur
al Ne
two
rk [
39]XU M,
ZHU J,
ZHANG B.
Baye
sian Nonpa
rame
tri
c Max
imum
Wo
rld,
2000,
10(
1):
29-48. Ma
rgi
n Ma
tri
xFa
cto
riz
ati
onf
orCo
llabo
rat
ivePr
edi
cton [
i C]∥

23] MELLIT A,
PAVAN A M,
BENGHANEM M.Le
astSqua
res Advanc
esi
n Neur
alI
nfo
rma
tionPr
oce
ssngSys
i tems.
2012.
Suppo
rtVe
cto
r Ma
chi
neFo
rSho
rt-Te
rm Pr
edi
cti
ono
f Me
teo- [
40]SREBRO N.Max
imum ma
rgi
n ma
tri
xfa
cto
riz
aton[
i J].
Ad-

rlog
ica
l Time Se
ris[
e J].Theo
ret
ica
l App
lied C
lima
toogy,
l vanc
esi ps,
n Ni 2005,
37(
2):
1329-1336.
2013,
111(
1):
297-307. [
41]BALAKRI
SHNAN S,
CHOPRA S.
Col
labo
rat
ive Ra
nkng[
i C]∥

24]TAYFE H,
CAO L.
App
lic
ati
ono
fSuppo
rtVe
cto
rMa
chi
nesi
n ACM I
nte
rna
tiona
l Con
fer
enc
e on Web Se
arch and Da
ta Mi-

inanc
ialTime Se
rie
s Fo
rec
ast
ing [
J].Omega,
2001,
29(
4): n
i ACM,
ng. 2012:
143-152.
309-317. [
42] WEIMER M,
KARATZOGLOU A,
LE Q,
eta
l. iRank—
CoF

25]JACOBS R A,
JORDAN M A,NOWLAN SJ,
eta
l.Adap
tive Max
imum Ma
rgi
n Ma
tri
x Fa
cto
riz
ati
onf
or Co
llabo
rat
ive Ran-
Mi
xtur
eso
f Lo
cal Expe
rts[
J].Neur
al Compu
tat
ion,
1991, k
ing [
C]∥Neur
alI
nfo
rma
tionPr
oce
ssngSys
i t 2007:
ems. 1593-
3(
1):
79-87. 1600.

26]JORDAN M I,
JACOBS R A.Hi
era
rch
ica
l Mi
xtur
eso
fExpe
rts [
43] KROHN-GRIMBERGHE A,
DRUMOND L,
FREUDENTHA-
andt
heEM Al
gor
ithm [
J].Neur
alCompu
tat
ion,
1994,
6(2): LER C.Mu
lti-Re
lat
iona
l Ma
tri
x Fa
cto
riz
ati
on Us
ing Baye
sian
181-214. Pe
rsona
liz
ed Rank
ingf
orSo
cia
l Ne
two
rk Da
ta [C]∥Pr
oce
e-

27] WEIGEND A S,MANAGEAS M.Ana
lys
isand Pr
edi
cti
on o
f d
ingso
ftheF
ift
hIn
ter
nat
iona
lCon
fer
enc
eon WebSe
archand
Mu
lti-S
tat
iona
ryTimeSe
ris[
e C]∥Pr
oce
edi
ngso
ftheTh
irdI
n- WebDa
ta Mi
ning(WSDM 2012).
Sea
tte,WA,
l USA,
2012.

erna
tiona
lCon
fer
enc
eon Neur
alNe
two
rksi
ntheCap
ita
lMa
r- [
44]ZHANG Y,
ROUGHAN M,WILLINGER W,
eta
l.Spa
tio-t
em-
ke
ts.
1995. r
poalComp
res
siveSens
ingandI
nte
rne
tTr
aff
ic Ma
tri
ces[
C]∥

28] WEIGEND A S,MANAGEAS M,
SRIVASTAVA A N.
Non
li- ACM S
igc
omm Con
fer
enc
eonDa
taCommun
ica
tion.
2009.
ne
arGa
ted Expe
rtsf
or Time Se
ris:Di
e scove
ring Reg
ime
sand [
45]RALLAPALLIS,
QIU L,
ZHANG Y,
eta
l.Exp
loi
ting Tempo-
Avo
idi
ngOve
r-f
itt
ing [
J].
Int
erna
tiona
lJour
nalo
fNeur
alSys- a
rlS
tab
ili
tyandLow-RankS
truc
tur
efo
rLo
cal
iza
tioni
n Mob
ile
ems,
t 1995,
6(4):
373-399. Ne rks [
two C]∥I
nte
rna
tiona
lCon
fer
enc
eon Mob
ileCompu
ting

29]KOHONEN T.
Sel
f-Or
gan
iza
tiona
ndAs
soc
iat
ive Memo
ry [M ]. and Ne
two
rkng(Mob
i icom’
10).
2010.
28 计 算 机 科 学 2019 年


46]YU H F,
RAO N,
DHILLONIS.
Tempo
ralRegu
lar
ized Ma
tri
x Neur
alNe rks[
two D].
Bal
timo
re:
Uni
ver
sit
yofMa
ryand,
l 2014.
Fa
cto
riz
ati
onf
orHi
gh-D
ime
nsi
ona
lTimeS
eri
esPr
edi
cton [
i C]∥ [ ZAMORA-MARTINEZ F,
62]ROMEU P, BOTELLA-ROCAMO-
NIPS.
2016. RA P,e
tal.Time-Se
rie
s Fo
rec
ast
ing o
fIndoo
r Tempe
rat
ure

47]XIONG L,
CHEN X,HUANG T K,
eta
l.Tempo
ralCo
llabo
ra- Us
i e-t
ngPr rai
ned De
ep Neur
al Ne rks[C]∥I
two nte
rna
tiona


ive F
ilt
eri
ng wi
th Baye
sian Pr
obab
ili
sti
c Tens
or Fa
cto
riz
ati
on Con
fer
enc
e on Ar
tif
ici
al Neur
al Ne
two
rks.Be
rln:Sp
i ri r,
nge

C]∥ S
iam I
nte
rna
tiona
l Con
fer
enc
e on Da
ta Mi
ning(
SDM 2013:
451-458.
2010).
Coumbus,
l Oho,
i USA,
DBLP,
2010:
211-222. [
63]LV Y,
DUAN Y,
KANG W,
eta
l.Tr
aff
icF
low Pr
edi
cti
on wi
th

48]RASMUSSEN C E,WILLIAMS C KI.
Gaus
sianPr
oce
sse
sfo
r B
igDa
ta:
A De
epLe
arn
ingApp
r ch [
oa J].
IEEE Tr
ans
act
ionson
Ma
chi
neLe
arn
ing [M].
The MIT Pr
ess,
2006. I
nte
ll
igen
tTr
anspo
rta
tionSys
tems,
2015,
16(
2):
865-873.

49]ALEXE B,
DESELAERS T,
FERRARI V.Wha
tis An Ob
jec
t [
64]LANGKVI
ST M,
KARLSSON L,
LOUTFIA.
A Rev
iewo
fUn-

C]∥Compu
ter Vi
sionand Pa
tte
rn Re
cogn
iti IEEE,
on. 2010: supe
rvi
sedFe
atur
eLe
arn
ingandDe
epLe
arn
ingf
orTime-Se
rie

73-80. Mode
ling [
J].
Pat
ter
nRe
cogn
iti
onLe
tte
rs,
2014,
42(
1):
11-24.

50]EVERINGHAM M,
GOOL L V,WILLIAMS C KI,
eta
l.The [
65]GAMBOAJC B.
DeepLe
arn
ingf
orTime-Se
rie
s Ana
l s[
J].
ys

Pa
scl,
a Vi
sua
lOb
jec
tCl
ass
es (VOC)Cha
llenge[
J].
Int
erna
tio- Ar
xiv: 01887,
1701. 2017.
na
lJour
nalo
fCompu
terVi
sion,
2010,
88(
2):
303-338. [
66] HEATON JB,
POLSON N G,WITTEJ H.
Deep Le
arn
ingi


51]FELZENSZWALBPF,
GIRSHICKRB,MCALLESTERD,
eta
l. F
i e[
nanc J].
Arx
iv: 06561,
1602. 2016.
Ob
jec
tDe
tec
tionwi
thDi
scr
imi
nat
ive
lyTr
ainedPa
rt-Ba
sed Mod- [
67]BOROVYKH A,
BOHTE S,
OOSTERLEE C W.
Cond
iti
ona


ls[
J].
IEEE Tr
ans
act
ionsonPa
tte
rn Ana
lys
is & Ma
chi
neI
n- TimeSe
rie
s Fo
rec
ast
ing wi
th Convo
lut
iona
l Neur
al Ne
two
rks

tll
i e,
genc 2010,
32(
9):
1627-1645. [
J].
Arx
iv: 04691,
1703. 2017.

52]KAPOOR A,
GRAUMAN K,
URTASUNR,
et a
l.Gaus
sian [
68]OORD A,
DIELEMAN S,
ZEN H,
eta t:
l.Wavene A Gene
rat
ive
Pr
oce
sse
sfo
rOb
jec
tCa
tego
riz
aton[
i J].
Int
erna
tiona
lJour
nalo

Mode
lfo
rRaw Aud
io[
J].
Arx
iv: 03499,
1609. 2016.
Compu
terVi
sion,
2010,
88(
2):
169-188. [
69]JAIN A,
KUMAR A M.
Hybr
id Neur
al Ne
two
rk Mode
lsf
or

53]CHUM O,
ZISSERMAN A.An Exemp
lar Mode
lfo
rLe
arn
ing
Hyd
rol
ogi
cTimeSe
rie
sFo
rec
ast
ing [
J].App
liedSo
ftCompu-
Ob
jec
tCl
ass
es[
C]∥IEEE Con
fer
enc
eonCompu
terVi
sionand

tng,
2007,
7(2):
585-592.
Pa
tte
rnRe
cogn
iton,
i 2007(
CVPR’
07).
IEEE,
2007:
1-8. [
70]ZHANG G,
PATUWO B E,HU M.
For
eca
stng wi
i th Ar
tif
ici
al

54]DIOSAN L,
ROGOZAN A,
PECUCHET J P.
Evo
lvng Ke
i rne

Neur
alNe rks:
two TheS
tat
eo t[
fTheAr J].
Int
erna
tiona
lJour-
Func
tionsf
orSVMsby Gene
tic Pr
ogr ng [C]∥I
ammi nte
rna-
na
lofFo
rec
ast
ing,
1998,
14(
1):
35-62.

tona
lCon
fer
enc
eon Ma
chi
neLe
arn
ingandApp
lic
ati IEEE,
ons.

71]ZHANG G.TimeSe
rie
s Fo
rec
ast
ing Us
inga Hybr
id ARIMA
2007:
19-24.
and Neur
alNe
two l[
rk Mode J].
Neur
ocompu
ting,
2003,
50(
1):

55] WU B,
ZHANG W,CHEN L,
e l.A GP-ba
ta sed Ke
rne
lCon-
159-175.

sruc
tionandOp
timi
zat
ion Me
thodf
orRVM [
C]∥TheI
nte
rna-

72]BINKOWSKI M,MARTIG,
DONNAT P.
Aut
oreg
res
siveCon-

iona
l Con
fer
enc
e on Compu
terand Au
toma
tion Eng
ine
eri
ng.
vo
lut
iona
lNeur
alNe
two
rksf
orAs
ynchr
onousTimeSe
ris[
e J].
IEEE,
2010:
419-423.
Ar
xiv: 04122,
1703. 2017.

56]KLENSKE E D,
ZEILINGER M N,
SCHOLKOPF B,
eta
l.

73] GOEL H,MELNYKI, R2N2:
BANERJEE A. Res
idua
lRe
cur-
Nonpa
rame
tri
cDynami
csEs
tima
tionf
orTimePe
riod
icSys
tems
en
r tNeur
alNe
two
rksf
or Mu
lti
var
iat
eTimeSe
rie
sFo
rec
ast
ing

C]∥ Commun
ica
tion,Con
trl,
o and Compu
ti IEEE,2014:
ng.

J].
Arx
iv: 03159,
1709. 2017.
486-493.

74]LAIG,
CHANG W,
YANG Y,
eta
l.Mode
lingLong-AndSho
rt-

57]LLOYD J R,
DUVENAUD D,
GROSSE R,
eta
l.Au
toma
tic
Te
rm Tempo
ralPa
tte
rns wi
t ep Neur
h De alNe rks [
two J].Ar-
Cons
truc
tionand Na
tur
al-Language De
scr
ipt
iono
f Nonpa
rame-

iv: 07015,
1703. 2017.

ticReg
res
sion Mode
ls[
C]∥Twen
t i
y-Egh
th AAAICon
fer
enc


75]ANAVA O,
HAZAN E,MANNORS,
eta
l.On
lineLe
arn
ingf
or
on Ar
tif
ici
alI
nte
ll
igenc
e.AAAIPr
ess,
2014:
1242-1250.
[ TimeSe
rie
s Pr
edi
cton[
i J].
Jour
nalo
f Ma
chi
ne Le
arn
ing Re-
58]TOBAR F,
BUIT D,
TURNER R E.
Lea
rni
ngS
tat
iona
ry Time

each,
r 2013,
30:
172-184.
Se
rie
s Us
ing Gaus
sian Pr
oce
sse
s wi
th Nonpa
rame
tri
c Ke
rne
ls

76]SHWARTZSS.
Onl
ineLe
arn
ingand On
lineConvex Op
timi
za-

C]∥ Advanc
esi
n Neur
alI
nfo
rma
tion Pr
oce
ssi
ng Sys
tems28

NIPS2015).
2015. t
ion [
J].Founda
tionsand Tr
endsi
n Ma
chi
ne Le
arn
ing,
2011,


59] HWANG Y,
TONG A,
CHOI J.
Aut
oma
tic Cons
truc
tion o
f 4(
2):
107-194.

77]ZINKEVICH M.
Onl
ineConvex Pr
ogr
ammi
ngand Gene
ral
ized
Nonpa
rame
tri
cRe
lat
iona
lReg
res
sion Mode
lsf
or Mu
lti
pleTime
Se
ris[
e C]∥I
nte
rna
tiona
l Con
fer
enc
e onI
nte
rna
tiona
l Con
fe- I
nfi
nit
esima
lGr
adi
entAs
c t[
en C]∥Pr
oce
edi
ngso
fthe Twen-

enc
r eon Ma
chi
neLe
arn
ing.
JMLR.
org,
2016:
3030-3039. t
iet
hIn
ter
nat
iona
lCon
fer
enc
eon Ma
chi
ne Le
arn
ing (
ICML).

60]KUREMOTO T,
KIMURA S,
KOBAYASHIK,
eta
l.TimeSe- 2003:
928-936.


iesFo
rec
ast
ing Us
inga De
ep Be
lie
f Ne
two
rk wi
th Re
str
ict
ed [
78] HAZAN E,AGARWAL A,KALE S.
Loga
rit
hmi
creg
reta
lgo-
Bo
ltzman Ma
chi
nes[
J].Neur
ocompu
ting,
2014,
137(
15):
47- i
rthmsf
oron
linec
onvex op
timi
zat
ion[
J].Ma
chi
ne Le
arn
ing,
56. 2007,
69(
2-3):
169-192.

61]TURNERJT.
TimeSe
rie
sAna
lys
is Us
ing De
epFe
edFo
rwa
rd

You might also like