卷积神经网络研究综述 周飞燕

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 23

第 40 卷 第 6 期 计 算 机 学 报 Vo

l.40 No.6
2017 年 6 月 CHINESEJOURNAL OF COMPUTERS June2017

卷积神经网络研究综述
周飞燕 金林鹏 董 军
1),
2) 1),
2) 1)

1)(中国科学院苏州纳米技术与纳米仿生研究所 江苏 苏州 215123)
2)(中国科学院大学 北京 100049)

摘 要 作为一个十余年来快速发展的崭新领域,深 度 学 习 受 到 了 越 来 越 多 研 究 者 的 关 注 ,它 在 特 征 提 取 和 建 模
上都有着相较于浅层模型显然的优势 .深度学习善于 从 原 始 输 入 数 据 中 挖 掘 越 来 越 抽 象 的 特 征 表 示 ,而 这 些 表 示
具有良好的泛化能力 .它克服了过去人工智能中被认 为 难 以 解 决 的 一 些 问 题 .且 随 着 训 练 数 据 集 数 量 的 显 著 增 长
以及芯片处理能力的剧增,它在目标检测和计算机 视 觉、自 然 语 言 处 理、语 音 识 别 和 语 义 分 析 等 领 域 成 效 卓 然 ,因
此也促进了人工智能的发展 .深度学习是包含多级非 线 性 变 换 的 层 级 机 器 学 习 方 法 ,深 层 神 经 网 络 是 目 前 的 主 要
形式,其神经元间的连接模式受启发于动物视觉皮层组织,而卷积神经网络则是 其 中 一 种 经 典 而 广 泛 应 用 的 结 构 .
卷积神经网络的局部连接、权值共享及池化操作等特性使之可以有效地降低网 络 的 复 杂 度,减 少 训 练 参 数 的 数 目,
使模型对平移、扭曲、缩放具有一定程度的不变性,并具有强鲁棒性和容错能力,且 也 易 于 训 练 和 优 化 .基 于 这 些 优
越的特性,它在各种信号和信息处理任务中的性能优 于 标 准 的 全 连 接 神 经 网 络 .该 文 首 先 概 述 了 卷 积 神 经 网 络 的
发展历史,然后分别描述了神经元模型、多层感知器 的 结 构 .接 着,详 细 分 析 了 卷 积 神 经 网 络 的 结 构,包 括 卷 积 层、
池化层、全连接层,它们发挥着不同的作用 .然后,讨论了网中网模型、空间变 换 网 络 等 改 进 的 卷 积 神 经 网 络 .同 时,
还分别介绍了卷积神经网络的监督学习、无监督学 习 训 练 方 法 以 及 一 些 常 用 的 开 源 工 具 .此 外,该 文 以 图 像 分 类、
人脸识别、音频检索、心电图分类及目标检测等为例,对 卷 积 神 经 网 络 的 应 用 作 了 归 纳 .卷 积 神 经 网 络 与 递 归 神 经
网络的集成是一个途径 .为了给读者以尽可能多的借 鉴,该 文 还 设 计 并 试 验 了 不 同 参 数 及 不 同 深 度 的 卷 积 神 经 网
络来分析各参数间的相互关系及不同参数设置对结 果 的 影 响 .最 后,给 出 了 卷 积 神 经 网 络 及 其 应 用 中 待 解 决 的 若
干问题 .

关键词 卷积神经网络;深度学习;网络结构;训练方法;领域数据
中图法分类号 TP18 DOI号 10.
11897/SP.
J.1016.
2017.
01229

Re
viewo
fConvo
lut
iona
lNe
ura
lNe
two
rk
),
2) ),
2) )
i-Yan1
ZHOU Fe J
IN L
in-Peng1 DONGJun1
1)(
SuzhouIn
sti
tut
eof Nano-Te
chand Nano-Bi
oni
cs,Ch
ine
seAcademyofSc
ienc
es,Suzhou,Ji u 215123)
angs
2)(
Un
ive
rsi
tyofCh
ine
seAcademyofSc
ienc
es,Be
ijng 100049)

Ab
str
act Asanewandr api
dlyg r
owingf
iel
df o
rmorethantenye
ars,deepl
e a
rninghasga
ined
mo
reand morea
tten
tionf
r om d
iff
eren
tres
earcher
s.Compar
edwithsha
llowarchit
ect
urs,i
e thas

getadvan
a tage
sinbo
thf
eat
ureex
tra
cti
ngand mode
lfi
tti
ng.Andi
tisve
rygooda
tdi
scove
ring

ncr
eas
ing
lyabs
tra
ctf
eat
urer
epr
esen
tat
ions whos
egene
ral
iza
tionab
ili
tyi
sst
rongf
rom t
her
aw

npu
tda ta.Ita
lsohassucc
essfu
llyso
lvedsomepr obemswh
l ichwereconside
reddif
ficulttoso
lve

nart
ifi
ciali
nte
lli
genc
e i
n thepast.Furt
h e
r mor
e ,withtheo u
tst
andi
n l
gy incr
eas
ed s
izeof da
ta
usedfort
rain
ingandthed
ras
tici
ncr
e as
esi
nchippr
ocess
ingcapab
ili
tis,
e itha
sresul
tedi
nsign
ifi-
cantpr
ogres
sandbe enus
edinabr oadareao
fappli
cat
ionssucha sobe
jctdet
ect
ion,computer

ison,na
i tur
all
anguagepr
oce
ssng,spe
i echr
ecogn
iti
onands
eman
ticpa
rsngandsoon,t
i husa
lso

收稿日期: 2017-01-18.周 飞 燕,女,


2016-07-27;在线出版日期: 1986 年 生,博 士 研 究 生,主 要 研 究 方 向 为 计 算 机 辅 助 心 血 管 疾 病 诊 断 .
E-ma
il:zh
f f
yy15@126.
com.金林鹏,男,
1984 年生,博士,主要研究方向为机器学习 .董 军(通信作者),男,
1964 年生,博 士,研 究 员,博
士生导师,主要研究领域为人工智能及其在健康监护、传统文化中的应用 .
E-ma
il:j
dong2010@s
inano.
ac.
cn.
1230 计 算 机 学 报 2017 年

pr
omo
tingt
headvanc
emen
tofa
rti
fic
iali
nte
lli
genc
e.De
epl
earn
ing wh
ich cons
ist
sof mu
lti
ple

eve
lso
fnon-l
ine
art
rans
forma
tionsi
sah
ier
arch
ica
lma
chi
nel
earn
ing me
thod.Andde
epneur
al
ne
two
rki
sthe ma
inf
orm o
fthepr
esen
tde
epl
earn
ing me
thodi
n wh
icht
heconne
cti
viypa
t tte
rn
be
twe
eni
tsneur
onsi
sinsp
ired byt
heo
rgan
iza
tion o
fthean
ima
lvi
sua
lco
rtex.Convo
lut
iona

neurlne
a tworktha
thasbeenwidel
yus edisacla
ssi
ck i
ndofdeepneura
lne
twork.Therea
res
e ver
al
char
acte
ris
tic
ssuchasloc
alconne
cti ,
ons shar
ed weight ,
s poo
linge
tc.Thes
ef e
atur
escanreduce

hecomplex
ityoft
henetwo
rkandthenumberoftra
iningpar
ametes,andt
r he
yalsoc
an makethe
mode
lcr
eati
ngsomedeg
reeo
finv
ari
anc
etoshi
ft,di
stor
tionandsc
aleandhav
ingst
rongrobust
ness
andf au
ltt o
ler
ance.Soi tisea
sytotr
ainand op
timi
zeitsnetwo
rkstruc
ture.Based onthe
se
predominan
tchara
cte
ris
tic
si,thasbe
enshowntooutpe
rfo
rm thest
anda
rdf ul
lyconnec
tedneural
networksinavari
etyofsignalandinforma
tionproc
ess
ingta
sks.Inthi
spaper,f
irsto
fa ll,the
hi
stor
icaldeve
lopmentofconvolu
tiona
lneuralne
tworkissummar
ized.Aft
ert
ha ,
tt hestruct
ures
fa neur
o on mode
land mu
lti
laye
rpe
rcep
tion a
reshown.La
teron,a de
tai
led ana
lys
iso
fthe
convo
lut
iona
lneur
alne
two
rka
rch
ite
ctur
ewh
ichi
scompr
isedo
fanumbe
rofconvo
lut
iona
llaye
rs
andpooli
nglaye
rsfo
llowedbyf u
llyconne
ctedlaye
rsisg
iven.Di
ffe
ren
tkindsofl
aye
rsinconvo-
lu
tiona
lneur
alnetworkarch
ite
ctureplaydi
ffe
rentrol
e ,
s.Then afewimproveda
lgo
rit
hmssuch
asNetworki
n Networkandspati
alt r
ansfo
rmernetworksofconvo
luti
onalneur
alnetwo
rk ar

des
cri
bed.Meanwhi
l ,
et hesupe
rvisedlea
rningandunsupe
rvi
sedl
earn
ing me
thodofc
onvol
uti
onal
neu
ralnetwo
rkands omewide
lyusedopensou
rcetoo
lsarein
tr ed,r
oduc e
spect
ive
ly.I
naddi
tion,the
app
lic
ati
onofconvo
luti
ona
lneura
lnetworkonimagecla
ssi
fi
caton,f
i ac
erecogn
iton,aud
i ioretr
ieve,

lec
tro
car
diog
ramc
las
sif
ica
tion,ob
jec
tde
tec
tion,ands
ooni
sana
lyz
ed.I
nte
gra
tingo
fconvo
lut
iona

neur
alnetwork and r
ecur
ren
t neural ne
two rk totrai
ninputt
ed da
ta could be an al
ternat
ive
machinel
ear
ningappro
ach.Fina
ll ,
y di
fferen
tc onvol
uti
onneur
alnetworkstr
uctures wi
thd i
ffe
rent
pa
rame
ter
sand d
iff
eren
t dep
ths a
ret
est
ed.Thr
ough a s
eri
eso
f expe
rimen
ts,t
he r
ela
tions
be ent
twe hes
epa
rame
tesi
r nt
hes
e mode
lsandt
hei
nfl
uenc
eofd
iff
eren
tpa
rame
ters
ett
ingsa
re
pr
elimi
nar
ygr
asped.Someadvan
tage
sandr
ema
inedi
ssue
sofconvo
lut
iona
lneur
alne
two
rkand

tsapp
lic
ati
onsa
reconc
luded.

Ke
ywo
rds convo
lut
iona
lneur
alne rk;de
two epl
earn
ing;ne
two
rks
truc
t e;t
ur rai
ning me
thod;
doma
inda
ta

等人 [4]提出了一种按误差逆传播算法训练的多层前
1 引 言 馈网络—反向传播网络( Ba
ckPr opaga
tion Ne
twork,
BP 网络),解决 了 原 来 一 些 单 层 感 知 器 所 不 能 解 决
人工 神 经 元 网 络 (Ar
tif
ici
al Neur
al Ne rk,
two 的问题 .由于在 20 世纪 90 年代,各种浅层机器学习
ANN)是对生 物 神 经 网 络 的 一 种 模 拟 和 近 似,是 由 模型相继被提出,较经典的如支持向量机 [5],而且当
大量神经元通过相互连接而构成的自适应非线性动 增加神经网络的层数时传统 的 BP 网 络 会 遇 到 局 部
态网络系统 .1943 年,心理学家 McCu lloch 和数理逻 最优、过拟合及梯度扩散等问题,这些使得深度模型
辑学家 P
its 提 出 了 神 经 元 的 第 1 个 数 学 模 型———
t 的研究被搁置 .
2006 年,Hi on 等 人 6 在 《 e》上 发 文,其
[]
MP 模 型 .MP 模 型 具 有 开 创 意 义,为 后 来 的 研 究

1]
nt Sci
enc
工作提供了依据 .到了 20 世纪 50 年代末至 60 年代 主要观点有:( 1)多 隐 层 的 人 工 神 经 网 络 具 有 优 异
初,
Ros
enb
lat在 MP 模 型 的 基 础 之 上 增 加 了 学 习
t 的特征学习能 力;(
2)可 通 过 “逐 层 预 训 练 ”(
laye
r-
功能,提出了单层感知器模型,第一次把神经网络的 wi
sepr
e-t
rai
ning)来有效克服深层神经网络在训 练
研究付诸 实 践 .但 是 单 层 感 知 器 网 络 模 型 不 能

2,3]
上的困难,从此引出了 深 度 学 习 (
Deep Le
arn
ing)的
够处 理 线 性 不 可 分 问 题 .直 至 1986 年,Rumelhar
t 研究,同时也掀起了人工神经网络的又一热潮 [7].在
6期 周飞燕等:卷积神经网络研究综述 1231

深度学习的逐层预训练算法中首先将无监督学习应 其中:
xi表示输入信号;
n 个输入信号同时输入神经
用于网络每一层的预训练,每次只无监督训练一层, wij 表示输入信号xi与神经元j 连接的权重值,
元j.
并将该层的训练结 果 作 为 其 下 一 层 的 输 入,然 后 再 bj表示神经 元 的 内 部 状 态 即 偏 置 值,
yj 为 神 经 元 的
用有监督学习(
BP 算法)微 调 预 训 练 好 的 网 络 8-10 .
[ ]
输出 .输入与输出之间的对应关系可用下式表示:
这种深度学习预训练方法在手写体数字识别或者行 n

bj + ∑ (
yj = f( xi × wij )) (
1)
人检测中,特别是当 标 注 样 本 数 量 有 限 时 能 使 识 别 i=1

效果或者检测效果得到显著提升 [11].
Beng
io12 系统
[ ]
·)为激 励 函 数,其 可 以 有 很 多 种 选 择,可 以 是 线
f(
地介绍了深度学习 所 包 含 的 网 络 结 构 和 学 习 方 法 . 性 纠 正 函 数 (Re
cti
fied L
ine
ar Un

[ ]
t,ReLU )25 ,
目 前,常 用 的 深 度 学 习 模 型 有 深 度 置 信 网 络 (
Deep si
gmod 函数、
i t x)函数、径向基函数等 26 .
anh(
[ ]

DBN)13-16 、层 叠 自 动 去 噪 编 码 机 2 多层感知器
[ ]
Be
lie
fNe rk,
two 2.
SDA)17 18 、卷积神
[ , ]
(S
tackedDeo
isi
ng Aut
oenc oders, 多 层 感 知 器 (Mu
lti
laye
r Pe
rcep
tron,MLP)是
经网 络(
Convo
lut
iona
lNeu
ralNe
two
rk,CNN)

19,
20]
由输入层、隐含层(一 层 或 者 多 层)及 输 出 层 构 成 的
等.
2016 年 1 月 28 日,英国《
Nat
ure》杂志以封面文章 神经网络模型,它可 以 解 决 单 层 感 知 器 不 能 解 决 的
形式报道:谷歌旗下 人 工 智 能 公 司 深 灵 (
De nd)
epMi 线性不可分问题 .图 2 是 含 有 2 个 隐 含 层 的 多 层 感
开发的 Al
phaGo 以 5∶0 战胜了卫冕欧 洲 冠 军——— 知器网络拓扑结构图 .
本以为大概 10 年后人工智能才能做到[21].
AlphaGo
主要 采 用 价 值 网 络 (
val
uene rks)来 评 估 棋 盘 的
two
位置,用策 略 网 络 (
pol
icyne rks)来 选 择 下 棋 步
two
法,这两 种 网 络 都 是 深 层 神 经 网 络 模 型,Al
phaGo
所取得的成果是深度学习带来的人工智能的又一次
突破,这也说明了深度学习具有强大的潜力 .
事实上,早在 2006 年以前就已有人提出一种学
习效率很 高 的 深 度 学 习 模 型———CNN.在 20 世 纪
80 年代和 90 年代,一些研究者发表了 CNN 的相关
研究工作,且在几个模式识别领域尤其是手写数字识
别中取得了良好的识别效果[22,23].然 而 此 时 的 CNN
只适合做小 图 片 的 识 别,对 于 大 规 模 数 据,识 别 效
果不佳 [7].直至 2012 年,
Krzhevsky 等人 24 使用 扩

[ ]

展了深度的 CNN 在 ImageNe


t大 规 模 视 觉 识 别 挑
战竞 赛 (
ImageNe
tLa
rgeSc
ale Vi
sua
lRe
cogn
iti
on
Cha
ll LSVRC)中取得了当时最佳的分类效果,
enge,
使得 CNN 越来越受研究者们的重视 .
图 2 多层感知器结构图
2 CNN 概述 输入 层 神 经 元 接 收 输 入 信 号,隐 含 层 和 输 出 层
的每一个神经元与 之 相 邻 层 的 所 有 神 经 元 连 接,即
1 神经元
2.
全连接,同一层的神 经 元 间 不 相 连 .图 2 中,有 箭 头
神经 元 是 人 工 神 经 网 络 的 基 本 处 理 单 元,一 般
的线段表示神经元 间 的 连 接 和 信 号 传 输 的 方 向,且
是多输入单输出的单元,其结构模型如图 1 所示 .
每个连接都有一个 连 接 权 值 .隐 含 层 和 输 出 层 中 每
一个神经元的输入为前一层所有神经元输出值的加
权和 .假设 xlm 是 MLP 中第l 层 第 m 个 神 经 元 的 输
入值,
ym 和 bm 分 别 为 该 神 经 元 输 出 值 和 偏 置 值,
l l

im 为该 神 经 元 与 第l-1 层 第i 个 神 经 元 的 连 接
wl-1

权值,则有:
图 1 神经元模型
1232 计 算 机 学 报 2017 年


l-1
敏感性 .尽管 在 神 经 认 知 机 中 没 有 像 BP 算 法 那 样
xlm =blm + ∑wl-1
im ×yi

2)
i=1 的全局监督学习过程可利用,但它仍可认为是 CNN

y = f(
mx ) l
m (
3) 的第一个 工 程 实 现 网 络,卷 积 和 池 化 (也 称 作 下 采
当多层感知器 用 于 分 类 时,其 输 入 神 经 元 个 数 样)分别受启发于 Hube
l-Wi
esl概念的简单细胞和

为输入信号的维数,输出神经元个数为类别数,隐含 复杂细胞,它能够准 确 识 别 具 有 位 移 和 轻 微 形 变 的
层个数及隐层神经 元 个 数 视 具 体 情 况 而 定 .但 在 实 输入 模 式 [29,30].随 后,
LeCun 等 人 基 于 Fukush
ima
际应用中,由于受到参数学习效率影响,一般使用不 的研究工作使用 BP 算 法 设 计 并 训 练 了 CNN(该 模
超过 3 层的浅层 模 型 .
BP 算 法 可 分 为 两 个 阶 段:前 型称为 LeNe
t-5), t-5 是 经 典 的 CNN 结 构,后
LeNe
向传播和后 向 传 播,其 后 向 传 播 始 于 MLP 的 输 出 续有许多工作基于 此 进 行 改 进,它 在 一 些 模 式 识 别
层 .以图 2 为例,则损失函数为 [
27] 领域中取得了良好的分类效果 [19].

l l


CNN 的基 本 结 构 由 输 入 层、卷 积 层 (
convolu-
E = E(
y1 ,…,
yh )= ∑ (yj -tj)


4) )、池 化 层 ( ,也 称 为 取 样


iona
llaye
r poo
lingl
aye

其中第l 层为输出层,
tj为输出层第j 个神经元的期 层)、全连接层及输出层构成 .卷积层和池化层一般会
望输出,对损失函数求一阶偏导,则网络权值更新公 取若干个,采用卷积层和池化层交替设置,即一个卷
式为 积层连接一个池化层,池化层后再连接一个卷积层,
l-1 l-1 E 依此类推 .由于卷积层中输出特征面的每个神经元与
wim = wim -η× l 1

5)
wim- 其输入进行局部连接,并通过对应的连接权值与局部
其中,η 为学习率 . 输入进行加权求和再加上偏置值,得到该神经元输入
2.
3 CNN 值,该过程等同于卷积过程,
CNN 也由此而得名 19 .
[ ]

1962 年,生 物 学 家 Hube


l和 Wi 通过对

28]
ese
l 2.
3.1 卷积层
猫脑视觉皮层的研 究,发 现 在 视 觉 皮 层 中 存 在 一 系 卷积层由多个特征面(
Fea
t e Map)组成,每个
ur
列复杂构造的细胞,这 些 细 胞 对 视 觉 输 入 空 间 的 局 特征面由多个神经 元 组 成,它 的 每 一 个 神 经 元 通 过
部区域很敏感,它们被称为“感受野”.感受野以某种 卷积核与上一层特 征 面 的 局 部 区 域 相 连 .卷 积 核 是
方式覆盖整个视觉域,它在输入空间中起局部作用, 一个权 值 矩 阵 (如 对 于 二 维 图 像 而 言 可 为 3×3 或
因而能够更好地挖掘出存在于自然图像中强烈的局 5×5 矩阵)19 31 .
CNN 的卷积层通过 卷 积 操 作 提 取
[ , ]

部空间相关性 .文献 [
28]将 这 些 被 称 为 感 受 野 的 细 输 入 的 不 同 特 征,第 1 层 卷 积 层 提 取 低 级 特 征 如 边
胞分为简单细胞和复杂细 胞 两 种 类 型 .根 据 Hube
l- 缘、线条、角落,更高层的卷积层提取更高级的特征 ① .
Wi
esl的层级模型,在 视 觉 皮 层 中 的 神 经 网 络 有 一
e 为了能够 更 好 地 理 解 CNN,下 面 以 一 维 CNN(
1D
个层级结构:外侧膝状 体 → 简 单 细 胞 → 复 杂 细 胞 → CNN)为 例,二 维 和 三 维 CNN 可 依 此 进 行 拓 展 .
低阶超复杂细胞 → 高阶超复杂 细 胞 [
.低 阶 超 复 杂
29]
图 3 所示为一维 CNN 的 卷 积 层 和 池 化 层 结 构 示 意
细胞与高阶超复杂细胞之间的神经网络结构类似于 图,最顶层为池化 层,中 间 层 为 卷 积 层,最 底 层 为 卷
简单细胞和复杂细 胞 间 的 神 经 网 络 结 构 .在 该 层 级 积层的输入层 .
结构中,处于较高阶 段 的 细 胞 通 常 会 有 这 样 一 个 倾 由图 3 可看出卷积层的神经元被组织到各个特
向:选择性地响应刺激模式更复杂的特征;同时还具 征面中,每个神经元 通 过 一 组 权 值 被 连 接 到 上 一 层
有一个更大的感受 野,对 刺 激 模 式 位 置 的 变 化 更 加 特征面的局部区域,即 卷 积 层 中 的 神 经 元 与 其 输 入
不敏感 [29].
1980 年,
Fuku
shima 根 据 Hub
le和 Wi
ese
l 层中的特征面进行局部连接 [11].然 后 将 该 局 部 加 权
的层 级 模 型 提 出 了 结 构 与 之 类 似 的 神 经 认 知 机 和传递给 一 个 非 线 性 函 数 如 ReLU 函 数 即 可 获 得
on)29 .神 经 认 知 机 采 用 简 单 细 胞 层
[ ]

Neocogn
itr 卷积层中每个神经 元 的 输 出 值 .在 同 一 个 输 入 特 征

S-l r,
aye S 层)和复杂细胞层(
C-l r,
aye C 层)交 替 组 面和同 一 个 输 出 特 征 面 中,CNN 的 权 值 共 享,如
成,其中 S 层与 Hub
le-Wi
esl层级模型中的简单细
e 图3所示,
权值共享发生在同一种颜色当中,不同颜色
胞层或者 低 阶 超 复 杂 细 胞 层 相 对 应,
C层对应于复 权值不共享 .通过权值共享可以减小模型复杂度,使
杂细胞层或者高阶超复杂细胞层 .
S 层能够最大程度
地响应感受野内 的 特 定 边 缘 刺 激,提 取 其 输 入 层 的 ① Hija
ziS,Kuma rR,Rowen C,e tal.Usi
ngconvo
lut
ional
neura
lnetworksf
orimager e
c ogn
iti
on.htp:
t //
ip.c
adence.
局部特征,
C层对来自确切位置的刺激具有局部不 com/upl /901/cnn_
oads wp-pdf,2016,9,22
6期 周飞燕等:卷积神经网络研究综述 1233

图 3 卷积层与池化层结构示意图

得网络更 易 于 训 练 .以 图 3 中 卷 积 层 的 输 出 特 征 s
igmo
id 函数、 tanh 函数等 .相比较于饱和非线 性 函
面 1 和其 输 入 层 的 输 入 特 征 面 1 为 例,
w1(1)1(1) = 数,不 饱 和 非 线 性 函 数 (
non-s
atu
rat
ingnon
line
ari
ty)
w1(2)1(2)=w1(3)1(3)=w1(4)1(4),而 w1(1)1(1)≠w1(2)1(1)≠ 能够解决梯度爆炸/梯度消失问题,同时也能够加快
w1(3)1(1),其中 wm(i)n(j)表示输入特征面 m 第i 个神经 收敛速 度 [33].
Jar
ret 等 人 34 探 讨 了 卷 积 网 络 中 不

[ ]

元与输出特征面 n 第j 个 神 经 元 的 连 接 权 值 .此 外 同的 纠 正 非 线 性 函 数 (
rec
tif
ied non
line
ari
ty,包 括
卷积核的滑动步长即卷积核每一次平移的距离也是 max(
0,x)非 线 性 函 数),通 过 实 验 发 现 它 们 能 够 显
卷积层中一个重要的参数 .在图 3 中,设置卷积核在 著提升卷积网络的性能,
Nar等人 25 也验证了这一

[ ]

上一层的滑动 步 长 为 1,卷 积 核 大 小 为 1×3.


CNN 结论 .因此在目前的 CNN 结构中常用不饱和非线性
中每一个卷积层的 每 个 输 出 特 征 面 的 大 小 (即 神 经 函数作为卷积层的激励函数如 ReLU 函数 .
ReLU 函
元的个数)
oMapN 满足如下关系

32]
数的计算公式如下所示 [24,25]

iMapN -CWi ndow) fcov(
x)= max(0,
x) (
9)
oMapN =
( CIn
terva

+1
) (
6)
图 4 中 实 线 为 ReLU 曲 线,虚 线 为 t
anh 曲 线 .
其 中:
iMapN 表 示 每 一 个 输 入 特 征 面 的 大 小; 对于 ReLU 而言,如果输入大于 0,则输出与输入相
ndow 为卷积 核 的 大 小;
CWi CIn
te l表示卷积核
rva 等,否则 输 出 为 0.从 图 4 可 以 看 出,使 用 ReLU 函
在其上一层的滑动步 长 .通 常 情 况 下,要 保 证 式 (
6) 数,输 出 不 会 随 着 输 入 的 逐 渐 增 加 而 趋 于 饱 和 .
能够整除,否则需对 CNN 网 络 结 构 作 额 外 处 理 .每 Chen 在其报 告 中 分 析 了 影 响 CNN 性 能 的 3 个 因
个卷积层可训练参数数目 CParams 满足式( [ ]
7)32 素:层 数、特 征 面 的 数 目 及 网 络 组 织 ① .该 报 告 使 用
CParams= ( ndow +1)×oMap
iMap ×CWi 9 种结构的 CNN 进行中文手写体识别实验,通过统

7) 计测试结果得到具有 较 小 卷 积 核 的 CNN 结 构 的 一
其 中:
oMap 为 每 个 卷 积 层 输 出 特 征 面 的 个 数; 些结 论:(
1)增 加 网 络 的 深 度 能 够 提 升 准 确 率;
iMap 为输入特征 面 个 数 .
1 表 示 偏 置,在 同 一 个 输 2 增加特征面的数 目 也 可 以 提 升 准 确 率;(
( ) 3)增 加
出特征面中偏置也 共 享 .假 设 卷 积 层 中 输 出 特 征 面 一个卷积层比增加一个全连接层更能获得一个更 高
n 第k 个神经元的输出 值 为 xnok
ut
,而 ximnh 表 示 其 输 入 的准确率 .
Beng
io 等人 35 指出深度网络结构具有两
[ ]

特征 面 m 第 h 个 神 经 元 的 输 出 值,以 图 3 为 例, 个优点:
(1)可以促进特征的重复利用;(
2)能够获取
则 [
32]
高层表达中更 抽 象 的 特 征,由 于 更 抽 象 的 概 念 可 根
out in i

x nk =fcov(
x × w1(h)n(k) +x
1h 1(h+1) × w1(h+1)n(k) + 据抽象性更弱的概 念 来 构 造,因 此 深 度 结 构 能 够 获



× w1(h+2)n(k) + … +bn )
1(h+2)

8) 取更抽象的 表 达,例 如 在 CNN 中 通 过 池 化 操 作 来
式(
8)中,
bn 为输 出 特 征 面n 的 偏 置 值 . ·)为 非
fcov(
线性 激 励 函 数 .在 传 统 的 CNN 中,激 励 函 数 一 般 ① XuChen.Convo l
uti
onneur alnetworksfo
rCh i
nesehand-
wri
tingreco
gnit
ion.ht
tp://c
s231n.s
tanfo
rd.
e /r
du epo
rt2016/

使用 饱 和 非 线 性 函 数 (sa
tur
ati
ng non
line
ari
ty)如 428_Repo
rt. f,2016,
pd 9,22
1234 计 算 机 学 报 2017 年

建立这种抽象,更抽 象 的 概 念 通 常 对 输 入 的 大 部 分 获得具有空间不变性的特征 [37].池 化 层 起 到 二 次 提


局部变 化 具 有 不 变 性 .He 等 人 [36]探 讨 了 在 限 定 计 取特征的作用,它的 每 个 神 经 元 对 局 部 接 受 域 进 行
算复杂 度 和 时 间 上 如 何 平 衡 CNN 网 络 结 构 中 深 池化操作 .常用的池 化 方 法 有 最 大 池 化 即 取 局 部 接
度、特征面数目、卷 积 核 大 小 等 因 素 的 问 题 .该 文 献 受域中值最大的点、均 值 池 化 即 对 局 部 接 受 域 中 的
首先研究 了 深 度 (
Dep
th)与 卷 积 核 大 小 间 的 关 系, 所有 值 求 均 值、随 机 池 化 [38,39].
Bour
eau 等 人 40 给
[ ]

采用较小的卷积核 替 代 较 大 的 卷 积 核,同 时 增 加 网 出了关于最大池化 和 均 值 池 化 详 细 的 理 论 分 析,通


络深度来增加复杂 度,通 过 实 验 结 果 表 明 网 络 深 度 过分析得出 以 下 一 些 预 测:(
1)最 大 池 化 特 别 适 用
比卷积核大小更重要;当时间复杂度大致相同时,具 于分离非常稀疏的特征;(
2)使用局部区域内所有的
有更小卷积核且深度 更 深 的 CNN 结 构 比 具 有 更 大 采样点去执行池化操作也许不是最优的,例如均值池
卷积核同时深度更浅 的 CNN 结 构 能 够 获 得 更 好 的 化就利用了局部接受域内的所有采样点 .
Bour
eau 等
实验结果 .其次,该文献也研究了网络深度和特征面 人 [41]比较了最大池化和均值池化 两 种 方 法,通 过 实
数目间的关系,
CNN 网 络 结 构 设 置 为:在 增 加 网 络 验发现:当分类层采用线 性 分 类 器 如 线 性 SVM 时,
深度时适当减少特 征 面 的 数 目,同 时 卷 积 核 的 大 小 最大池化方法比均值池化能够获得一个更好的分类
保持不变,实验结 果 表 明,深 度 越 深,网 络 的 性 能 越 性能 .随机池化方法 是 对 局 部 接 受 域 采 样 点 按 照 其
好;然而随 着 深 度 的 增 加,网 络 性 能 也 逐 渐 达 到 饱 值大小赋予概率值,再根据概率值大小随机选择,该
和 .此外,该文献还通过固定网络深度研究了特征面 池化方法确保了特征面中不是最大激励的神经元也
数目和卷积核大小间的关系,通过实验对比,发现特 能够被利用 到 [37].随 机 池 化 具 有 最 大 池 化 的 优 点,
征面数目和卷积核 大 小 的 优 先 级 差 不 多,其 发 挥 的 同时由于随机性它能够避免过拟合 .此外,还有混合
作用均没有网络深度大 . 池化、空间金字塔池化、频谱 池 化 等 池 化 方 法 [37].在
通常所采用的池化 方 法 中,池 化 层 的 同 一 个 特 征 面
不同神经元与上一 层 的 局 部 接 受 域 不 重 叠,然 而 也
可以采用重叠池化 的 方 法 .所 谓 重 叠 池 化 方 法 就 是
相邻的池化窗口间有重叠 区 域 .
Krzhevsky 等 人 24

[ ]

采用重叠池化 框 架 使 t
op-1 和 t
op-5 的 错 误 率 分 别
4% 和 0.
降低了 0. 3% ,与 无 重 叠 池 化 框 架 相 比,其
泛化能力更强,更不易产生过拟合 .设池 化 层 中 第 n
个输出特征面第l 个神经元的输出值为tn
out
l ,同样以
图 4 ReLU 与 t
anh 函数曲线图
图 3 为例,则有 [32]:
在 CNN 结构 中,深 度 越 深、特 征 面 数 目 越 多, out
tnl = fsub(nq ,
tin i

tn(q+1)) (
10)
则网络能够表示的 特 征 空 间 也 就 越 大、网 络 学 习 能 其中:
t 表示池化层 的 第n 个 输 入 特 征 面 第q 个 神
in
nq

力也越强,然而也会使网络的计算更复杂,极易出现 经元的输出 值; ·)可 为 取 最 大 值 函 数、取 均 值


fsub (
过拟合的现象 .因而,在实际应用中应适当选取网络 函数等 .
深度、特征面数目、卷积核的大小及卷积时滑动的步 池化 层 在 上 一 层 滑 动 的 窗 口 也 称 为 池 化 核 .事
长,以使在训练能够 获 得 一 个 好 的 模 型 的 同 时 还 能 实 上,CNN 中 的 卷 积 核 与 池 化 核 相 当 于 Hube
l-
减少训练时间 . Wi
esl模型 28 中感受野在工程上的实现,卷积层用

[ ]

2.
3.2 池化层 来模拟 Hube
l-Wi
esl理论的简单细胞,池化层模 拟

池化 层 紧 跟 在 卷 积 层 之 后,同 样 由 多 个 特 征 面 该理论的复杂细胞 .
CNN 中每个池化层的每一个输
组成,它的每一个特 征 面 唯 一 对 应 于 其 上 一 层 的 一 出特征面的大小(神经元个数)
DoMapN 为 32
[ ]

个特征面,不 会 改 变 特 征 面 的 个 数 .如 图 3,卷 积 层 oMa N


是池化层的输入层,卷 积 层 的 一 个 特 征 面 与 池 化 层
DoMapN = (DWinpdow ) (
11)

中的一个特征面唯 一 对 应,且 池 化 层 的 神 经 元 也 与 其中,


池化核的大小为DWi
ndow,在图3中DWi
ndow=
其输入层的局部接 受 域 相 连,不 同 神 经 元 局 部 接 受 2.池 化 层 通 过 减 少 卷 积 层 间 的 连 接 数 量,即 通
域不重叠 .池化层旨 在 通 过 降 低 特 征 面 的 分 辨 率 来 过池化操作 使 神 经 元 数 量 减 少,降 低 了 网 络 模 型
6期 周飞燕等:卷积神经网络研究综述 1235

的计算量 . 少,可能会使一些有利于网络学习的特征被忽略掉,
2.
3.3 全连接层 从而不利于网络的学习;但是如果特征面个数过多,
在 CNN 结构中,经多个卷积层和池化层 后,连 可训练参数个数及 网 络 训 练 时 间 也 会 增 加,这 同 样
接着 1 个或 1 个以上 的 全 连 接 层 .与 MLP 类 似,全 Chuo 等 人 46 提 出 了 一 种 理
不利于学习 网 络 模 型 . [ ]

连接层中的每个神经元与其前一层的所有神经元进 论方法用于确定最 佳 的 特 征 面 数 目,然 而 该 方 法 仅


行全连接 .全连接层 可 以 整 合 卷 积 层 或 者 池 化 层 中 对极小的接受域有 效,它 不 能 够 推 广 到 任 意 大 小 的
具有类别区分 性 的 局 部 信 息 [
42]
.为 了 提 升 CNN 网 接受域 .该文献通过实验发现:与每层特征面数目均
络性能,全连接层每 个 神 经 元 的 激 励 函 数 一 般 采 用 相同的 CNN 结构相比,金 字 塔 架 构 (该 网 络 结 构 的
ReLU 函数

.最 后 一 层 全 连 接 层 的 输 出 值 被 传 递
43]
特征面数目按倍数增加)更能有效利用计算资源 .目
给一个输出层,可以采用 so
ftmax 逻辑回归(
sof
tmax 前,对于 CNN 网 络 特 征 面 数 目 的 设 定 通 常 采 用 的

egress
ion)进 行 分 类,该 层 也 可 称 为 so
ftmax 层 是人工设置方法,然 后 进 行 实 验 并 观 察 所 得 训 练 模
(so
ftmaxl r).对于一个具体的分类任务,选择一
aye 型的分类性能,最终 根 据 网 络 训 练 时 间 和 分 类 性 能
Gu 等 人
个合适的损 失 函 数 是 十 分 重 要 的, [
介绍
37]
来选取特征面数目 .
了 CNN 几种常用的损失 函 数 并 分 析 了 它 们 各 自 的 2.
3.5 CNN 结构的进一步说明
特点 .通 常,CNN 的 全 连 接 层 与 MLP 结 构 一 样, CNN 的实现过 程 实 际 上 已 经 包 含 了 特 征 提 取
CNN 的训练算法也多采用 BP 算法 . 过程,以图 5、图 6 为 例 直 观 地 显 示 CNN 提 取 的 特
当一个大的前馈神经网络训练一个小的数据集 征.
Cao 等 人 47 采 用 CNN 进 行 指 纹 方 向 场 评 估,
[ ]

时,由 于 它 的 高 容 量,它 在 留 存 测 试 数 据 (
hel
d-ou
t 图 5 为其模 型 结 构 .图 5 共 有 3 个 卷 积 层 (
C1,
C3,
a,也可称 为 校 验 集)上 通 常 表 现 不 佳 .为 2 个 池 化 层 (M2,M4)、
1个全连接层( F6)和

30]

estda
t C5)、
了避免训练过拟合,常 在 全 连 接 层 中 采 用 正 则 化 方 1 个输出层( O7).输入的大小为160×160,
C1 中 96×
法———丢失数据(
dr t)技术,即使隐层神经元 的
opou 4)表示 C1 层 有 96 个 大 小 为 11×11 的
11×11×1(
输出值以 0.
5 的 概 率 变 为 0,通 过 该 技 术 部 分 隐 层 卷积核,
1 为它的输 入 特 征 面 个 数,
4是卷积核在其
节点失效,这些节点 不 参 加 CNN 的 前 向 传 播 过 程, 38×38 为 每 个 输 出 特 征
输入特征面上的滑动步长,
也不会参加后向 传 播 过 程 [
24,
.对 于 每 次 输 入 到 网
30]
面的大小 .卷积层通 过 卷 积 操 作 提 取 其 前 一 层 的 各
络中的样本,由于 d
r t技术的随机性,它对应的
opou 种不同的局部特 征,由 图 5 可 看 出,
C1 层 提 取 输 入
网 络 结 构 不 相 同,但 是 所 有 的 这 些 结 构 共 享 权 图像的边缘、轮廓 特 征,可 看 成 是 边 缘 检 测 器 .池 化
值 [
.由于一个神经元不能依赖于 其 它 特 定 神 经 元
24]
层的作用是在语义 上 把 相 似 的 特 征 合 并 起 来,池 化
而存在,所以这种技 术 降 低 了 神 经 元 间 相 互 适 应 的 层通过池 化 操 作 使 得 特 征 对 噪 声 和 变 形 具 有 鲁 棒
复杂性,使神 经 元 学 习 能 够 得 到 更 鲁 棒 的 特 征 [
24]
. 性 [11].从图上可 看 出,各 层 所 提 取 的 特 征 以 增 强 的
目前,关于 CNN 的 研 究 大 都 采 用 ReLU+d
ropou
t 方式从不同角度表 现 原 始 图 像,并 且 随 着 层 数 的 增
技术,并取得了很好的分类性能 [
24,
44,
45]
. 加,其表现形式越来越抽象 [48].全连接层 F6 中的每
2.
3.4 特征面 个神经元与其前一 层 进 行 全 连 接,该 层 将 前 期 所 提
特征面数 目 作 为 CNN 的 一 个 重 要 参 数,它 通 取的各种局部特征 综 合 起 来,最 后 通 过 输 出 层 得 到
常是根据实际应用 进 行 设 置 的,如 果 特 征 面 个 数 过 每个类别的 后 验 概 率 .从 模 式 分 类 角 度 来 说,满 足

图 5 指纹经过 CNN 的中间层输出特征 [47]


1236 计 算 机 学 报 2017 年


i r判别准则的 特 征 最 有 利 于 分 类,通 过 正 则 化
she 来替换传统 CNN 的 全 连 接 层,它 可 以 增 强 神 经 网
方法( dr t方法),网 络 参 数 得 到 有 效 调 整,从 而
opou 络的表示能力 .微神 经 网 络 主 要 是 采 用 MLP 模 型,
使全连接层提取的特 征 尽 量 满 足 F
i r 判 别 准 则,
she 如图 7 所示 .
最终有利于分类 [
.图 6 给 出 了 CNN 提 取 心 电 图
48]


ele
ctr
oca
rdi
ogam,
r ECG)特征 的 过 程,首 先 通 过 卷
积单元 A1、 B1、C1(其 中 每 个 卷 积 单 元 包 括 一 个 卷
积层和一个池化层)提取特征,最后由全连接层汇总
所有局部特征 .由 图 中 也 可 以 看 出,层 数 越 高,特 征
的表现形式也越抽象 .显然,这些特征并没有临床诊
断的物理意义,仅仅是数理值 [48]. 图 7 线性卷积层与 MLP 卷积层对比 [50]

图 7 中,图 7(
a)是 传 统 CNN 的 线 性 卷 积 层,
图 7(
b)是 NIN 模型的非 线 性 卷 积 层,用 MLP 来 取
代原 来 的 GLM.NIN 通 过 在 输 入 中 滑 动 微 型 神 经
网络得到卷积层的特征面 .与卷积的权值共享类似,
MLP 对同一个特征面的所有局部感受野也共享,即
对于同一个 特 征 面 MLP 相 同 .文 献 [
50]之 所 以 选
择 MLP,考虑到 MLP 采用 BP 算法进行训练,能与
CNN 结 构 融 合,同 时 MLP 也 是 一 种 深 度 模 型,具
图 6 ECG 经过 CNN 的中间层 [48] 有特征重用的思想 .MLP 卷积层能够处理更复杂的

2.
3.6 与传统的模式识别算法相比 非线性问题,提 取 更 加 抽 象 的 特 征 .在 传 统 的 CNN

CNN 的本质就 是 每 一 个 卷 积 层 包 含 一 定 数 量 结构中全连接层的参数过多,易于过拟合,因此它严

的特 征 面 或 者 卷 积 核 [46].与 传 统 MLP 相 比, 重依赖于 d


r t正 则 化 技 术 .NIN 模 型 采 用 全 局
opou
CNN
中卷积层的权值共 享 使 网 络 中 可 训 练 的 参 数 变 少, 平均池化代替原来 的 全 连 接 层,使 模 型 的 参 数 大 大
减少 .它通 过 全 局 平 均 池 化 方 法 对 最 后 一 个 MLP
降低了网络模型复杂度,减少过拟合,从而获得了一
卷积层的每个特征 面 求 取 均 值,再 将 这 些 数 值 连 接
个更好的泛化能力 [49].同时,在 CNN 结构中使用池
成向量,最后输入到 so
ftmax 分类层中 .全局平均池
化操作使模型中的 神 经 元 个 数 大 大 减 少,对 输 入 空
化可看 成 是 一 个 结 构 性 的 正 则 化 算 子 (
struc
tur
al
间的平移不变 性 也 更 具 有 鲁 棒 性 [49].而 且 CNN 结

egu
lar
izr),它 可 以 增 强 特 征 面 与 类 别 的 一 致 性 .

构的可拓展性很强,它可以采用很深的层数 .深度模
在全局平均池化层 中 没 有 需 要 优 化 的 参 数,因 此 能
型具有更强的表达 能 力,它 能 够 处 理 更 复 杂 的 分 类
够避免过拟合 .此外,全局平均池化层对空间信息进
问题 .总的来说,
CNN 的局部连接、权值共享和池化
行求和,因此对输入的空间变化具有更强的鲁棒性 .
操作使其比 传 统 MLP 具 有 更 少 的 连 接 和 参 数,从
n 等人 50 将 该 算 法 应 用 于 MNIST 及 SVHN 等
[ ]


而更易于训练 .
数据集中,验证了该算法 的 有 效 性 . Xu 等 人 51 结 合
[ ]

NIN 模型提出 了 ML-DNN 模 型,使 用 与 文 献 [


50]
3 CNN 的一些改进算法 相同的数据库,将其与稀疏编码等方法比较,表明了
该模型的优越性 .
1 网中网结构
3.
2 空间变换网络
3.
CNN 中 的 卷 积 滤 波 器 是 一 种 广 义 线 性 模 型 尽管 CNN 已 经 是 一 个 能 力 强 大 的 分 类 模 型,

Gener
ali
zedLi
near Model,
GLM), GLM 的 抽 象 水 但是它 仍 然 会 受 到 数 据 在 空 间 上 多 样 性 的 影 响 .
平比较低,但通过抽 象 却 可 以 得 到 对 同 一 概 念 的 不
g 等人 采用 一 种 新 的 可 学 习 模 块—空 间

52]

ade
rbe

同变体保持不变的特 征 [
50]

Lin等人

提出了一种
50]
变换网络 ( Spa
tial Tr
ans
forme
r Ne rks,
two STNs)
网中网( Networki
n Network,NIN)模型,该模型使 来解决此问题,该模块由 3 个部分组成:本地化网络
用微 型 神 经 网 络 (mi
cro neur
alne rk)代 替 传
two (
loc
ali
sat
ionne
twork)、网格生成器( gri
dgenera
tor)
统 CNN 的卷积过 程,同 时 还 采 用 全 局 平 均 池 化 层 及采 样 器 (sampl
er).STNs 可 用 于 输 入 层,也 可
6期 周飞燕等:卷积神经网络研究综述 1237

插入 到 卷 积 层 或 者 其 它 层 的 后 面,不 需 要 改 变 原 于与视频相关的任务 [55].


CNN 模型的内部结 构 .
STNs 能 够 自 适 应 地 对 数 据
进行 空 间 变 换 和 对 齐,使 得 CNN 模 型 对 平 移、缩 4 训练方法及开源工具
放、旋转或 者 其 它 变 换 等 保 持 不 变 性 .此 外,
STNs
的计算速度 很 快,几 乎 不 会 影 响 原 有 CNN 模 型 的 1 训练方法
4.
训练速度 . 虽然 通 常 都 认 为 如 果 没 有 无 监 督 预 训 练,对 深
3 反卷积
3. 度神经网络进行有监督训练是非常困难的,但 CNN
由 Ze
ilr等 人


53]
提 出 的 反 卷 积 网 络 (De
con- 却是一个特 例,它 可 直 接 执 行 有 监 督 学 习 训 练 [12].
vo
lut
iona
lNe rks)模 型 与 CNN 的 思 想 类 似,只
two CNN 通过 BP 算法进行有监督训练,也需经过信息
是在运算 上 有 所 不 同 .
CNN 是 一 种 自 底 而 上 的 方 的正向传 播 和 误 差 的 反 向 传 播 两 个 阶 段 [19].
CNN
法,其输入信号经过多层的卷积、非线性变换和下采 开始训练之前,需要 采 用 一 些 不 同 的 小 随 机 数 对 网
样处理 .而反卷积网络中的每层信息是自顶而下的, 络中所有的权值和偏置值进行随机初始化 .使用“小
它对由已学习的滤波器组与特征面进行卷积后得到 随机数”以保证网 络 不 会 因 为 权 过 大 而 进 入 饱 和 状
的特征求和就能重 构 输 入 信 号 .随 后,
Zei
ler

54]
采用 态,从而导致训练失败;“不同”用来保证网络可正常
反卷积网络 可 视 化 CNN 中各网络层学习得到的特 地学习训练,如果使用相同的数值初始化权矩阵,那
征,从而有利于分析并改进它的网络结构 .反卷积网 么网络将没有学习的能力 [56].随机 初 始 化 的 权 值 和
络也可看成是一个卷积模型,它同样需要进行卷积和 偏置值的范围可为[-0.
5, 5]或 者 [-1,
0. 1](或 者
池化过程,不同之处在于与 CNN 是一个逆过程 .文献 是其它合适的区间)[57].在实际应 用 中,无 标 注 的 数
54]模型中的每一个卷积层都加上一个反卷积层 .在
[ 据远多于有标注的 数 据,同 时 对 数 据 进 行 人 工 标 注
卷积、非线性函数、最 大 池 化 后,不 仅 将 输 出 的 特 征 也需要耗 费 较 大 的 人 力 .但 是 为 了 使 有 监 督 CNN
作为下一层的输入,也将它送给对应的反卷积层 .反 得到充分的训练并 获 得 较 好 的 泛 化 能 力,又 需 要 大
卷积层需要依次进行 unpoo
ling(采用一种近似的方 量有标注 的 训 练 样 本,这 一 定 程 度 上 制 约 了 CNN
法求最大池化的逆 过 程)、矫 正 (使 用 非 线 性 函 数 来 在实际中的应用 .这也是有监督学习的一个缺欠 .
保证所有输出均为非负数)及反卷积操作(利用卷积 事实上,
CNN 也 可 以 进 行 无 监 督 训 练 .现 存 的
过程中卷积核的转 置 作 为 核,与 矫 正 后 的 特 征 作 卷 一些无监 督 学 习 算 法 一 般 都 需 要 调 整 很 多 超 参 数
积运算),然后形成 重 构 特 征 .通 过 反 卷 积 技 术 可 视 (
hype
rpa
rame
ter),这 使 得 它 们 难 以 被 利 用,对 此
化 CNN 各网络层学习到的特征, 还得出以 am 等人 58 提 出 了 一 种 只 需 调 整 一 个 超 参 数 的

54] [ ]
Zei
ler Ng

下结论:
CNN 学习到的特征对于平移和缩放具有不 无监督学习算法—稀疏滤波( spar
sefil
terng).稀疏

变性,但是对于旋转操作一般不具有该特性,除非被 滤波只优化 一 个 简 单 的 代 价 函 数———L2 范 数 稀 疏
识别对象具 有 很 强 的 对 称 性 .
Zhao 等 人

55]
提出了 约束特征,从而得 到 好 的 特 征 表 示 .在 稀 疏 滤 波 中,
一个新的称为 SWWAE(
Sta
cked Wha
t-Whe
reAu
to- 其特征 分 布 矩 阵 具 有 如 下 特 点:样 本 分 布 稀 疏 性
Encode
rs)的 结 构,
SWWAE 模 型 由 卷 积 结 构 及 反 (
popu
lat
ionspars
ity)、高 分 散 性 (h
igh di
spersl)、

卷积结构组成,采用卷积结构对输入进行编码,而反 存在稀疏( l
ife
timespars
ity).文 中 指 出 可 将 稀 疏 滤
卷积结构用来进 行 重 构 .
SWWAE 的 每 一 个 阶 段 是 波用于深度网络模 型 中,先 用 稀 疏 滤 波 训 练 得 到 一
一个“内容 -位置”(
wha
t-whe
re)自动编码机,编码机 个单层的归一化特 征,然 后 将 它 们 作 为 第 2 层 的 输
由一个卷积层及紧 随 其 后 的 一 个 最 大 池 化 层 组 成, 入来训练第 2 层,依 此 类 推 .通 过 实 验,发 现 使 用 稀
通过最大 池 化 层产生两个 变 量 集:最 大 池 化 的 输 出 疏滤波贪心算法逐 层 训 练,可 学 习 到 一 些 很 有 意 义
t变量,它作为下一层的输入;将最大池化的
记为 wha 的特征表示 .
Dong 等人 59 将稀疏滤波应用于 CNN
[ ]

位置信 息 记 为 whe
re 变 量,
whe
re变 量 要 横 向 传 递 的无监督学 习,同 时 使 用 该 CNN 模 型 识 别 交 通 工
到反卷积结构中 .
SWWAE 的 损 失 函 数 包 含 3 个 部 具类型 .在文献[
59]中,采 用 稀 疏 滤 波 作 为 预 训 练,
分(判别损失、重构损失及中间重构损失).
SWWAE 并将 CNN 学习到的高级 全 局 特 征 和 低 级 局 部 特 征
在各 种 半 监 督 和 有 监 督 任 务 中 取 得 了 很 高 的 准 输入到 so
ftmax 层中 进 行 分 类 .随 后,
Dong 等 人 60
[ ]

确率,它特别适用于 具 有 大 量 无 标 注 类 别 而 有 标 注 又采用一种半监督学 习 CNN 用 于 交 通 工 具 类 型 识


类别相 对 少 的 数 据 集 的 情 况,该 模 型 也 可 能 适 用 别中 .文中采用大量 无 标 注 的 数 据 无 监 督 训 练 卷 积
1238 计 算 机 学 报 2017 年

层的卷积核,该无监督算法为稀疏拉普拉斯滤波器, 许多优秀的开源深度学习仿真工具 .目前常用的深度


再用一定量的有标注 数 据 有 监 督 训 练 CNN 输 出 层 学习仿真工具有 Ca
ff
[ ]
e62 ① 、
Toch② ③ 及 The

[ ]
ano63 ④
的参数,最后通过 BIT-Veh
ice 数 据 库 验 证 该 CNN
l 等.
Caf
fe是一个基于 C+ + 语 言 且 关 于 CNN 相 关
模型的可行性 .如果数据集中只有少量的标注数据, 算法的架构 .
Caf
fe可以在 CPU 及 GPU 上运行,它支
同时还需要 训 练 一 个 大 的 CNN 网 络,传 统 的 做 法 持 MATLAB 和 Py
thon 接 口 .
Caf
fe提 供 了 一 个 完
是首先进行无监督 预 训 练,然 后 再 采 用 有 监 督 学 习 整的工具包,用于训练、测试、微调及部署模型 .
Caf
fe
(如 BP 算法)进行微调(
fine-t
unng).
i 允许用户对新数据 格 式、网 络 层 和 损 失 函 数 进 行 拓
显性 训 练 是 传 统 的 神 经 网 络 训 练 方 法,其 最 大 展;它的运 行 速 度 也 很 快,在 单 个 K40 或 者 Ti
tan
特点是训练过程中有 一 部 分 样 本 不 参 与 CNN 的 误 GPU 上一天可以训练超过 4 千万幅图像;用户还可
差反向传播过程,将该部分样本称为校验集 .在显性 以通过 Ca
ffe社区参与开发与讨论 .但是 Ca
ffe 的灵
训练过程中,为了防止发生过拟合现象,每隔一定时 活性较差 .
间就用当前分类模 型 测 试 校 验 样 本,这 也 表 明 了 校 To
rch 是一个支持机器学习算法的科学计算框
验集中样 本 选 取 的 好 坏 会 影 响 最 终 分 类 模 型 的 性 架 .它是采用 Lua 脚本语言和 C 语言编写的 .
Tor
ch
能 .在 CNN 分 类 模 型 中,为 了 增 加 训 练 样 本 数,可 为设计和 训 练 机 器 学 习 模 型 提 供 了 一 个 灵 活 的 环
采用“平移起始点”和“加躁”这两种 技 术 [61].不 妨 以 境,它还 可 支 持 iOS、And
rod 等 嵌 入 式 平 台 .最 新

一个采样点数为 1×1900 的 一 维 信 号 为 例,设 置 起 版本 To
rch7 使 CNN 的训练速 度 得 到 大 幅 度 提 升 .
始点的范围为[
1,200].训 练 过 程 中,每 个 样 本 随 机 对于 To
rch 的 时 域 卷 积,其 输 入 长 度 可 变,这 非 常
选定一个起始点,截取其后连续的 1700 个点作为网 有助于自然语言任务 .但 To
rch 没有 Py
thon 接口 .
络的输入参与 BP 训练过程,则 CNN 的输入维数为 ano 是一个允许用户定义、优化并评价数学
The
1×1700,显然起始点不同,截取所得的子段也不同 . 表达式 的 py
thon 库 .The
ano 提 供 了 NumPy 的 大
在文献[ 48]的 校 验 集 中,每 幅 ECG 的 起 始 点 均 为 部分功能,可在 GPU 上 运 行 .此 外, ano 能 够 自
The
1,实际上起 始 点 也 可 以 不 一 样,但 是 在 CNN 的 整 动求 微 分,它 尤 其 适 用 于 基 于 梯 度 的 方 法 .The
ano
个训练过程中,必须保持该校验集不变,同时校验集 能够很容易且高效地实 现 递 归 神 经 网 络(
Recur
ren

和训练集完全没有 交 集,其 样 本 为 来 自 不 同 病 人 的
Neur
alNe
two RNN).然 而 The
rk, ano 的 编 译 过 程
不同记录 .此外,只 要 对 类 别 的 最 终 判 断 没 有 影 响, 很慢,导入 The
ano 也需要消耗时间 .
也可通过加躁处理或者对原始数据做某种扭曲变换
ampour等人 64 从可拓展性、硬件利用率及
[ ]
Bahr
从而达到增加训练样本的目的 .
速度方面对 Ca
ffe、
Tor
ch、 ano、
The Neon⑤ 及 Tenso
r-
在某些应用领域如计算机辅助 ECG 分析中,不
ow⑥ 等 5 个 深 度 学 习 软 件 架 构 作 了 比 较 .其 中
Fl
同的 ECG 记录(一维 信 号)也 可 能 存 在 一 些 表 现 相
Caf
fe、
Torch 及 The
ano 是 目 前 最 广 泛 使 用 的 软 件
似的 ECG 记录 .如果 校 验 样 本 不 典 型,即 该 校 验 集
架构 .这 5 个软件架构 均 可 在 CPU 或 者 GPU 上 运
没有包含全部有差 异 的 个 体,则 训 练 所 得 的 分 类 模
行,但是 Neon 不 能 使 用 多 线 程 CPU,
Cafe需 要 在

型就会存在偏差 .由于受到一些现实条件的影响,人
安装 的 时 候 确 定 好 CPU 的 线 程 数,Tenso ow、
rFl
工挑选校验 样 本 也 并 非 易 事 .因 此 在 CNN 的 分 类
To
rch 及 The
ano 则 可 以 灵 活 地 选 择 CPU 线 程
过程中,还 可 以 采 用 隐 性 训 练 方 法 .与 显 性 训 练 相
数 [64]. ampour等人 64 通过 实 验 发 现:
Bahr
[ ]
Toch 与

比,隐性训练方法主 要 的 区 别 是 怎 样 检 验 当 前 的 分
ano 是两个最具有拓展性的架构,不仅支持各种
The
类模型 .隐性训练方 法 从 整 个 训 练 集 中 取 出 一 小 部
深度结构,还 支 持 各 种 库;在 CPU 上,对 于 任 一 深
分样本用于校验:用 于 校 验 的 这 部 分 样 本 不 做 加 躁
处理,并且对于每一 个 样 本 都 截 取 起 始 点 固 定 的 子
① Cafe [On
f line].http//caf
fe.be rke
leyvi
sion.o rg/,2016,
段 .在实际应用中,这 两 种 训 练 方 法 各 有 优 势 .通 过 9,22
② Torch [
On l
ine].http://to
rch. ch/,2016, 9,22
实验表明,这种平移 起 始 点 和 加 躁 技 术 对 分 类 性 能 ③ Torch7[Online].htt
ps://github.com/torch/to
rch7,2016,
9,22
的提升有很大的帮 助,尤 其 是 对 于 数 据 不 平 衡 的 分 ④ Theano [On l
ine].h t
tps://github.com/The ano/Theano,
类问题 [61]. 2016,9,22
⑤ Neon [Online].https://gi
t hub.com/yelit/neon,2016,

2 开源工具
4. 9,22
⑥ TensorFow [On
l lne].h
i ttps://www.t ens or
flow.org/,
深度学习能够广泛应用于众多研究领域,离不开 2016,9,22
6期 周飞燕等:卷积神经网络研究综述 1239

度网络结构的训练和部署, To
rch 表现最优,其次是 最易于评价标准深 度 结 构 的 性 能;与 The
ano 类 似,
The Neon 的 性 能 最 差;在 GPU 上 训 练 卷 积 和
ano, Tenso ow 也是 非 常 灵 活 的 架 构,但 是 它 在 单 个
rFl
全连 接 网 络,对 于 小 网 络 模 型 The
ano 的 训 练 速 度 GPU 上的性能不如其它几个架构. 表1 总结了 Ca fe、

最快,对于 较 大 的 网 络 模 型 则 是 To
rch 最 快,而 对 To
rch 及 The
ano 所 具 有 的 一 些 特 点 ① .The
ano 没
于大的卷积网络 Neon 也非常有竞争力;在 GPU 上 有预训练的 CNN 模型,所以在 The
ano 上不能直接
训 练 和 部 署 RNN 模 型 , ano的 性 能 最 好 ;
The Caf
fe 进行 CNN 无监督预训练 .

表 1 不同软件包的一些特点
架构 编写语言 开源 接口 硬件 平台 适合模型 预训练 CNN 模型
命令行,Python, L
inux,OSX,Wi
ndows,
Ca
ffe C++ ,
Pyt
hon 是 CPU,
GPU CNN 有
Ma
tlab Ubunu,
t AWS,Andr
oid

inux,And
riod,MacOSX,
To
rch Lua,
C 是 Lua,
C CPU,
GPU,
FPGA CNN,
RNN,
DBN 有
iOS,Windows
The
ano Py
thon 是 Py
thon CPU,
GPU 可跨平台 CNN,
RNN,
DBN 无

换方式减少了参数 的 数 量,而 且 也 能 够 使 决 策 函 数
5 实际应用 更具有判别性 .VGG 模 型 在 LSVRC-14 竞 赛 中,得
到了图像分类“指定数据”组的第 2 名,证明了深度在
1 图像分类
5. 视觉表示中的重要性 .但是由于 VGG 与 GoogLeNe

近年来,
CNN 已被广泛应用于图像处理领域中 . 的深度都比较深,所以网络结构比较复杂,训练时间
zhevsky 等人 第 1 次将 CNN 用于 LSVRC-12

24]
Kr
i 长,而且 VGG 还需要多次微调网络的参数 .
竞赛中,通过加深 CNN 模型的深度并采用 ReLU+ Al t模 型、GoogLeNe
exNe t 模 型 与 VGG 模 型

r t技术,取得了当 时 最 好 的 分 类 结 果 (该 网 络
opou 都在ImageNe
t竞 赛 中 取 得 了 很 好 的 结 果,然 而 它
结构也被称为 Al t).
exNe AlexNet模 型 包 含 5 个 卷 们只能接受固 定 大 小 的 输 入 .事 实 上,
CNN 的 卷 积
积层和 2 个 全 连 接 层 .与 传 统 CNN 相 比:在 Al
ex- 层不需要固定大小 的 输 入,它 可 以 产 生 任 意 大 小 的
t中采用 ReLU 代替饱和非线性 函 数 t
Ne anh 函 数, 特征面,但是它的全连接层需要固定长度的输入,因
降低了模型的计算 复 杂 度,模 型 的 训 练 速 度 也 提 升 此 CNN 的输入大小需保 持 一 致 的 限 制 源 于 它 的 全
了几倍;通过 d
r t技术在训练过程中将中间层的
opou 连接层 [67].为了 获 得 固 定 大 小 的 输 入,需 要 对 输 入
一些神经元 随 机 置 为 0,使 模 型 更 具 有 鲁 棒 性,也 减 图像进行裁剪或者 缩 放,但 是 这 样 的 变 换 会 破 坏 输
少了全连接层的过拟合;而且还通过图像平移、图像 入图像的纵横比及 完 整 的 信 息 等,从 而 影 响 识 别 的
水 平 镜 像 变 换、改 变 图 像 灰 度 等 方 式 来 增 加 训 练 样 准确率 .
He等人 67 提出 一 种 SPP-ne
[ ]
t模 型,该 模 型
本,从 而 减 少 过 拟 合 .相 比 于 Al t,
exNe egedy 等
Sz 是在 CNN 的 最 后 一 个 卷 积 层 与 第 1 个 全 连 接 层
人 大大增加了 CNN 的深度,提出了一个超过 2

65]
0层 中间 加 入 一 个 空 间 金 字 塔 池 化 (
Spa
tia
lPy
rami

的 CNN 结 构 (称 为 GoogLeNe t).在 GoogLeNe
t Poo
li SPP)层 .
ng, SPP 层 能 够 使 CNN 不 同 大 小 的
结构中 采 用 了 3 种 类 型 的 卷 积 操 作 (
1×1 3×3,
, 输入却产生 大 小 相 同 的 输 出,打 破 了 以 往 CNN 模
5×5),该结构的主要特点是提升了计算资源的利用 型的输入 均 为 固 定 大 小 的 局 限,且 该 改 进 的 CNN
率,它的参数比文献[24]少了12 倍,而且 GoogLeNe
t 模型训练速度较 快,在 LSVRC-14 的 图 像 分 类 比 赛
的准确 率 更 高,在 LSVRC-14 中 获 得 了 图 像 分 类 中获得第 3 名 .
“指定数 据 ”组 的 第 1 名 .
Simonyan 等 人 66 在 其 发
[ ]
在层 级 很 深 的 深 度 网 络 模 型 中,除 了 存 在 梯 度
表的文 章 中 探 讨 了 “深 度 ”对 于 CNN 网 络 的 重 要 扩散问题 外,还 存 在 着 退 化 问 题 .批 规 范 化 (
Bat
ch
性 .该文 通 过 在 现 有 的 网 络 结 构 中 不 断 增 加 具 有
No
rma
liz
ati BN)是 解 决 梯 度 扩 散 问 题 的 一 种 有
on,
3×3卷积核的卷积层来增加网络的深度,实验表明, 效方法 [68].所谓退化问题就是:随 着 深 度 的 增 加,网
当权值层数达到 16~19 时,模型的性能能够得到有 络精度达到饱和,然后迅速下降 .且该性能的下降不
效提升(文中的模型也 称 为 VGG 模 型).
VGG 模 型 是 由过拟合引起的 ,而是增加网络的深度使 得 它 的
用具有小卷积核的多个卷积层替换一个具有较大卷
积核的卷积层(如用大小均为 3×3 卷积核的 3 层卷 ① Compasi
onofdeeplea
rni
ngsoftwa
re[Onl
ine].ht
tps:
//en.
wik
ipedi
a.og/wi
r k/Compa
i r
ison_of_de
ep_ le
arn
ing_sof
t-
积层代替一层具有 7×7 卷 积 核 的 卷 积 层),这 种 替 ware,2016,9,
22
1240 计 算 机 学 报 2017 年

训 练 误 差 也 随 之 增 加 [69].文 献 [
69]采 用 残 差 网 络 不 能 增 加 输 入 图 像 的 大 小 ,那 么 可 以 减 小 其 后

Res
idua
l Ne rks,Re
two t)来 解 决 退 化 问 题 .
sNe 卷 积 层 中 的 滑 动 步 长 ,这 样 也 能 够 得 到 大 致 相 同
Re t的主要特点是跨层连接,它通过引入捷径连
sNe 的结果.
接技术(
sho
rtcu
tconne
ctons)将输入跨层传递并 与
i 2 人脸识别
5.
卷积的结果相加 .在 Re t中 只 有 一 个 池 化 层,它
sNe 在人脸识别中,传统的识别路线包括 4 个步骤:
连接在最后一个卷积层后面 .
Re t使得底层的网
sNe 检测 -对齐 -人脸表示 -分类 .
DeepFa
ce72 也 遵 循 这 一
[ ]

络能够 得 到 充 分 训 练,准 确 率 也 随 着 深 度 的 加 深 技术路线,但是对人 脸 对 齐 和 人 脸 表 示 阶 段 进 行 了


而得到显 著 提 升 .将 深 度 为 152 层 的 Re t用 于
sNe 改进 .在 De
epFa
ce 中 首 先 对 图 像 进 行 3D 人 脸 对
LSVRC-15 的图像分类比赛中,它获得了第 1 名的成 齐,再输入到 深 度 神 经 网 络 中 .
DeepFa
ce的 前 3 层
绩.
在该文献中,
还尝试将 Re t的深度设置为 1000,
sNe 2 个卷积层及 1 个 池 化 层 )用 于 提 取 低 级 特 征 (如

并在 CIFAR-10 图像处理数据集中验证该模型 . 边缘及纹理信息).池化层能够使得网络对微小偏移
Al t与 VGG 模 型 的 网 络 结 构 为 直 线 型,
exNe 更具有 鲁 棒 性,但 是 为 了 减 少 信 息 的 丢 失,De
ep-
它们的输入都是从第 1 个卷积层按单个路径直接传 Fa
ce的池化层只有 1 层,其 紧 跟 在 第 1 个 卷 积 层 后
递到最后一层 .在 BP 训练中预测误差是由最顶层传 面.
DeepFa
ce的第 2 个卷积层后紧连着 3 个 局 部 连
递到底层的,对于很深的网络模型传递至底层的误差 接层(这 3 个局部 连 接 层 卷 积 核 不 共 享),由 于 在 对
很小,难以优化底层参 数 [
70]
.因 此,对 于 Al t与
exNe 齐的人脸 图 像 中 不 同 的 区 域 有 不 同 的 局 部 统 计 特
VGG 模 型,如 果 它 们 的 深 度 很 深,则 将 难 以 优 化 它 征,采 用 不 共 享 的 卷 积 核 可 减 少 信 息 的 丢 失 .
Deep-
们 的 结 构 .为 了 使 网 络 结 构 能 够 得 到 有 效 训 练, Fa
ce具有 2 个全连接层,全 连 接 层 可 用 来 捕 获 人 脸
t在多个中间层中加 入 监 督 信 号 .
GoogLeNe ResNe
t 图像不同位置的特征之间(如人眼的位置与形状、嘴
则通过捷径连接技术使得输入可以通过多个路径流 巴的位置与形状)的相关性 .将该模型应用于户外人
入最顶层,它大幅度降低了更深层模型的训练难度 . 脸检测数据 库 (
Lab
ele
dFa
cesi
nthe Wi
l LFW)中,
d,
如何有效地训练层级很深的深度网络模型仍旧是一 De
eepFa
ce72 取得的人脸识别准确率为 97.
[ ]
35% ,接
个有待研究的问题 .尽 管 图 像 分 类 任 务 能 够 受 益 于 53% ,其 所 用 方 法 克 服 了 以
近人眼辨识 准 确 率 97.
层级较深的卷积网 络,但 一 些 方 法 还 是 不 能 很 好 地 往方法的缺点和局限性 .然而 De
epFa
ce的参数个数
处理遮挡或者运动模糊等问题 . 多于 1.
2 亿,其中 95% 参数来 自 3 个 局 部 连 接 层 及
n等人 系统地比较了近年来在Ima 2 个全连接层,因此 De e 对有标注样 本 的 数 量

71]
Mi
shk
i geNe
t epFa

竞 赛 的 大 数 据 中 不 同 CNN 结 构 (包 括 VGG、 要求较高,它需要一个大的有标注数据集 .
t)的性能 及 不 同 参 数 选 取 对 CNN 结 构 的 在 De ID274 之 后,
Sun 等 人 75 又
[ ] [ ] [ ]
Go
ogLeNe epID 73 、
Deep
影响 .文中通过实验得 到 以 下 一 些 建 议:( 1)对 于 激 相继 提 出 了 De
epID2+ 、
De
[ ]
ID376 .
ep De
epID2+ 继
励函数,可选取没有 BN 的指数线性单元(
Exponen- 承了 De
epID2 的 结 构,它 也 包 含 4 个 卷 积 层,且 每

ialL
ine
arUn
it,
ELU)

37,
71]
或者有 BN 的 ReLU 非 个卷积层后均紧随 着 一 个 池 化 层,并 作 了 3 个 方 面
线性函数;(
2)在 池 化 层 中 采 用 平 均 池 化 及 最 大 值 的改进:(
1)加大网 络 结 构,每 个 卷 积 层 的 特 征 面 个
池化之和比随机池 化、单 独 的 平 均 池 化 或 者 最 大 池 数增 加 到 了 128 个,最 终 的 特 征 表 示 也 增 加 到 了
化等方法要 好;(
3)相 比 较 于 平 方 根 学 习 率 衰 减 方 512 维;(
2)增加了训练数据;(
3)一个具有 512 维的
法(
squa
rer
oot)、平 方 学 习 率 衰 减 方 法 (
squa
re)或 全连接层均与每一 个 池 化 层 进 行 全 连 接,且 每 一 池
者阶跃学习 率 衰 减 方 法 (
step),使 用 线 性 学 习 率 衰 化层都添加监督信 号 (由 人 脸 辨 识 信 号 和 人 脸 确 认
减方法(
li
ner)更 好;(
a 4)最 小 批 量 尺 寸 (mi
ni-ba
tch 信号组成),使用监督信号既能够增加类间变化又能

ize)可取 128 或者 256,如果这对于所用 GPU 而言 够减少类内变化 .
De ID2+ 在 LFW 上的准确率达
ep
还是太大,那 么 可 按 批 量 尺 寸 成 比 例 减 少 学 习 率; 到了 99.
47%.De
epID2+ 具 有 3 个 重 要 的 属 性:
5)目 前 深 度 学 习 的 性 能 高 度 依 赖 于 数 据 集 的 大
( 1)它的顶层 神 经 元 响 应 是 中 度 稀 疏 的,即 使 将 神

小 .如果训练集大小小于它的最小值,那么模型性能 经元二值化后,仍能获得较好的识别结果,该性质能
会迅速降低 .因 此 当 增 加 训 练 集 大 小 时 ,需 要 检 查 够最大化网 络 的 辨 识 能 力 及 图 像 间 的 距 离;(
2)高
6)如 果
数 据 量 是 否 已 达 到 模 型 所 需 的 最 小 值 ;( 层的神经元对人脸身份以及人脸属性具有很高的选
6期 周飞燕等:卷积神经网络研究综述 1241

择性;(
3)高 层 神 经 元 对 局 部 遮 挡 具 有 良 好 的 鲁 棒 高,但是 CNN 在 人 脸 识 别 中 仍 然 有 许 多 具 有 挑 战
性 .以往的许多研究 工 作 为 了 获 得 这 些 引 人 注 目 的 性的问题,如面部 特 征 点 定 位、人 脸、姿 态 等 对 人 脸
属性,通常 需 要 对 模 型 加 入 一 些 显 性 的 约 束,但 是 识别效果的影响,都是需要深入研究的问题 [79].
De
epID2+ 通过 数据训练深度模型就能够自动地得 3 音频检索
5.
到这些属性 [
75]

De ID2+ 的 提 出 不 仅 能 够 显 著 提
ep Abde d 等人 80 81 结合隐马尔科夫建立了
l-Hami
[ , ]

升人脸识别的性能,还 能 够 帮 助 人 们 理 解 深 度 模 型 CNN 用于识别语音 的 模 型,并 在 标 准 TIMIT 语 音


及其网络连接,且对稀疏表示、属性学习和遮挡处理 数据库上进行实验,实 验 结 果 显 示 该 模 型 的 错 误 率
等研究也起一定的指导作用 [
Sun 等人
75]


分别重
76]
相对于具有相同隐含层数和权值的常规神经网络模
建了 VGG 网 络 和 GoogLeNe
t网 络,得 到 De
epID3 型低了 10% ,表明 CNN 模 型 能 够 提 升 语 音 的 识 别
ne
t1 网络和 De
epID3ne
t2 网 络(将 它 们 称 为 De
ep- 准确率 .在文献[ 81]中,
80, CNN 模型的卷积层均采
ID3).
De ID3 继承了 De
ep epID2+ 的一些特点,在最 用了受限权值共享(
Limi
ted We
igh
tSha
ring,
LWS)
后几个特征提取层 中 它 们 的 权 值 也 不 共 享,并 且 为 技术,该技 术 能 够 更 好 地 处 理 语 音 特 征,然 而 这 种
了使网络能够更好 地 学 习 中 级 特 征 及 更 易 于 训 练, LWS 方 法 仅 限 于 单 个 卷 积 层,不 像 大 部 分 的 CNN
在网络的一些 中 间 层 中 也 要 加 入 人 脸 辨 识 -人 脸 确 研究可以使用多个卷积层 .
IBM 和微软公司近年来
认监督信 号 .然 而 De
epID3 的 深 度 更 深,且 它 的 非 在 CNN 用 于 识 别 语 音 方 面 也 做 了 大 量 的 研 究 工
线性特征提取层可达 10~15 层 .通过结合 De
epID3 作,并发表了一些相关的论文 [82-84].
ne
t1 网络和 De
epID3ne
t2 网 络,在 LFW 上 De
ep- 4 ECG 分析
5.
ID3 的 人 脸 识 别 准 确 率 为 99.
53%.尽 管 De
epID3 ECG 是目前 极 为 有 用 的 一 种 心 血 管 系 统 疾 病
的深度 要 比 De
epID2+ 深,但 是 它 要 比 VGG 或 者 的临床诊断体征 .远 程 医 疗 诊 断 服 务 系 统 的 产 生 使
t深度浅得多 .然而当更正了 LFW 上一些
GoogLeNe 得更多的人获得医 疗 专 家 的 诊 断 服 务,许 多 研 究 者
错误标注的数据后,它的准确率与 De
epID2+ 一样, 包括 本 课 题 组 多 年 来 一 直 致 力 于 研 究 计 算 机 辅
还需在更大的训练集上进一步研究很深的深度模型 助 ECG 分析 [85]. i等 人 86 综 述 了 从 2000 年 到
Kad
[ ]

的有效性 . 2015 年将数据 挖 掘 技 术 应 用 于 计 算 机 辅 助 心 血 管


Fa
ceNe


77]
是由 Goog
le公 司 提 出 的 一 种 人 脸 疾病分析的文章 .他 们 根 据 数 据 挖 掘 技 术 及 其 性 能
识别模型,它直接学 习 从 人 脸 图 像 到 紧 致 欧 式 空 间 选出 149 篇 文 献 并 进 行 分 析,通 过 研 究 发 现:从
的一个映射,使欧式 距 离 直 接 关 联 着 人 脸 相 似 度 的 2000 年到 2015 年,关 于 使 用 数 据 挖 掘 技 术 辅 助 分
一个度量 .
Fac t是一个端对 端 的 学 习 方 法,它 通
eNe 析心血管疾病的研 究 数 量 呈 增 长 趋 势;研 究 人 员 常
过引入三元组损失函数进行人脸验证、识别和聚类 . 将挖掘技术用于分 类 和 预 测;相 比 较 于 其 它 数 据 挖
Fa
c t直接优 化 与 任 务 相 关 的 三 元 组 损 失 函 数,
eNe 掘技术,神经网络和 支 持 向 量 机 能 够 获 得 更 高 的 准
在训练过程中该损 失 不 仅 仅 用 在 最 后 一 层,它 也 用 确率 .该文献的分析 结 果 也 说 明 了 神 经 网 络 技 术 在
于多个层中 .然而如 果 选 择 不 合 适 的 三 元 组 损 失 函 计算机辅助心血管 疾 病 分 析 中 的 有 效 性 .然 而 由 于
数,那么将会影响模型的性能,同时也会使收敛速度 实际应用中 ECG 数据形态复杂多变,将传统的神经
变慢,因 此 三 元 组 损 失 函 数 的 选 取 对 于 Fa
c t性
eNe 网络技术应用于大数据的 ECG 分析中,取得的结果
能的提升很重要 .经 LFW 数据库和 YouTube 人 脸 并不是很理想 .
数据库 测 试,Fa
c t得 到 的 识 别 准 确 率 分 别 为
eNe 临床实际应 用 中,
ECG 多 数 为 多 导 联 信 号,与
63% 和 95.
99. 12%. 二维图像相似 .本课题组成员朱 洪 海 [87]针 对 多 导 联
相比 较 于 De
epFa
ce、De
epID,
Fac t不 需 要
eNe ECG 数据,同时考虑到 CNN 的优越特性,提出了一
进行复杂的 3D 对齐,
De ID 则需要一个简单的 2D
ep 种 ECG-CNN 模型,从目前公开发表的文献可知,该
仿射对齐 .
Pa i等人
rkh

在其文章中也研究了在 不
78]
ECG-CNN 模 型 也 是 CNN 首 次 应 用 于 ECG 分 类
同 CNN 结 构 中 人 脸 对 齐 对 人 脸 识 别 准 确 性 的 影 中.
ECG-CNN 模型采用 具 有 3 个 卷 积 层 和 3 个 池
响 .他 们 通 过 实 验 发 现 对 齐 后 Fa
c t的 识 别 准 确
eNe 化层的 CNN 结构,其 输 入 数 据 维 数 为 8×1800(对
率比原模型的高 [
.在 LFW 数 据 库,De
78]
epFa
ce、 应 8 个基本导联 ECG 采样点数).
ECG-CNN 的第 1
De
epID 系 列 及 Fa
c t的 人 脸 识 别 准 确 率 都 比 较
eNe 个卷积核的大小为 8×23,它包含 了 全 部 的 行,这 与
1242 计 算 机 学 报 2017 年

t-5 网 络 结 构 在 图 像 中 的 卷 积 核 大 小 为 5×5
LeNe CNN 模型 的 分 类 性 能 优 于 对 照 文 献 的 分 类 性 能 .
不一样,图像中的卷积核一般不会包含全部的行 .通 cova等人 91 2012 年统计了市场上一些心电图
Haka
[ ]

过采 用 ECG-CNN 模 型 对 国 际 公 认 的 心 律 失 常 数 机的自动诊 断 结 果,总 共 统 计 了 576 例 ECG,发 现


据库——— MIT-BIH 数 据 库 ① (该 数 据 库 共 48 条 记 Phi
lipsmedi
cal自动诊断准 确 率 只 有 80% ,
Dra
ege

录)中的 40 条 ECG 记录进行病人内心拍分类,得到 mediclsys
a tems的准确率为 75% ,而 3 名普通医生
的准 确 率 为 99.
2%.同 时 在 该 文 献 中 还 采 用 ECG- 的 ECG 判 读 准 确 率 为 85% ,对 比 该 统 计 结 果 及
CNN 模型对本课 题 组 为 了 面 向 临 床 应 用 而 建 立 的 ECG-CNN 模型所得结 果,验 证 了 CNN 在 ECG 分
中国心血管 疾 病 数 据 库 [88](
Chi
nes
eCardiova
scul
ar 类中的有效性 .
Dise
a se Da
taba
se,CCDD,h
ttp://58.
210. 164:
56. 文献[87]的 ECG-CNN 模 型 其 实 也 是 一 种 二
88/ccdd/)的前 251 条记录进行心拍正异常分类,得 维 CNN,但是 ECG 的 导 联 间 数 据 相 关 性 与 导 联 内
到 的 准 确 率 为 97.89%.文 中 将 文 献 [89]和 文 献 数据的相关性不一样,导联内数据具有时间相关性,
90]作为对照文献,相同数据集上,文献[
[ 89]和[
90] 导联间的数据却是 独 立 的,因 此 不 宜 将 二 维 图 像 的
得到的 心 拍 正 异 常 分 类 准 确 率 分 别 为 98.
51% 和 CNN 结构应 用 于 ECG 分 类 中 48 .据 此,金 林 鹏 和
[ ]

97%.此外文 献 [
94. 87]还 采 用 该 算 法 对 CCDD 数 董军 [48]在 ECG-CNN 模型上做了改进,提出了导联
据库的 Se
tIV 数 据 集 共 11760 条 记 录 进 行 按 记 录 卷积神经网络( LeadConvolu
tiona
lNeuralNetwok,

的病 人 间 正 异 常 分 类,最 终 准 确 率 为 83.
49% ,文 LCNN)模型 .图 8 所 示 为 基 于 记 录 分 类 的 LCNN
献[89]和[90]在 该 数 据 集 中 得 到 的 准 确 率 分 别 为 结构 .
15% 和72.
70. 14% .从 上 述 对 比 结 果 可 知 ,ECG-

图 8 基于记录分类的 LCNN 结构 [48]

在 图 8 中,每 个 卷 积 单 元 CU 均 包 含 一 个 卷 积 ECG 记录的周 期 特 性,对 ECG 记 录 进 行 起 始 点 平


层和一个池化层,例如 CU-A1、
CU-B1 及 CU-C1 均 移操作,将一条 ECG 记录所有可能的情况都包含进
包含一个卷积层和一个池化层,
1D-Coc表示一维卷 去 [48].在 LCNN 的训练 过 程 中,采 用 惯 性 量 和 变 步
积运算 .对于 8 个导联,每一个导联均有 3 个卷积单 长的反向 BP 算法 [92].同样在 CCDD 上进行 模 型 验
元,而且不同导联间的卷积单元是相互独立的 .每个 证,经 测 试,
LCNN 取 得 了 83.
66% 的 ECG 病 人 间
导联的数据依次通 过 3 个 卷 积 单 元,如 其 中 一 个 导 正异常分类准确率,该结果也说明了 LCNN 在实际
联依次通过卷 积 单 元 CU-A1、 CU-C1,然 后
CU-B1、 应用中的有效性 .王丽苹 [93]构建了 一 个 包 含 个 体 内
将每个导联的第 3 个池化层都连接到同一个全连接 时间 序 列 及 统 计 分 类 的 混 合 分 类 模 型 (简 称 ECG-
层进行信息汇总,最终在逻辑回归层上进行分类 .与 MTHC),该模型包含 RR 间期正异常分析、 QRS 波
文献[87]相比, ECG-CNN 模型只有 3 个卷积单元, 群相似度分 析、基 于 数 值 和 形 态 特 征 的 SVM 分 类
而图 8 中的 LCNN 结构有 24 个卷积单元 .文献[
87] 模型及 ECG 典 型 特 征 分 析 4 个 分 类 模 块 .金 等 将

中 对 于 连 接 输 入 层 的 卷 积 层,其 卷 积 核 大 小 为 ECG-MTHC 模型 同 样 对 CCDD 中 的 ECG 记 录 进


行测试,但是由于有 1 万多条 ECG 记录的中间特征
8×23,图 8 中每一个导联的第 1 个卷积层的卷积核
大小 均 为 1×18.为 了 增 加 训 练 样 本 从 而 降 低 不 同
① MIT-BIH Arrhy
thmia Databa
se [Onlne].h
i ttp://www.
类别 ECG 数 据 的 不 平 衡 性,LCNN 充 分 利 用 了 phys
ione
t.o
rg/phys
iobank/dat
abase/mitdb/,2016,9,28
6期 周飞燕等:卷积神经网络研究综述 1243

提取 出 错 而 无 法 给 出 诊 断 结 论,因 此 ECG-MTHC 出一种基于一维 CNN 的病人内 ECG 分类,该 CNN


模型只 给 出 了 14 多 万 条 ECG 的 自 动 诊 断 结 果, 结构包含 3 个 CNN 层和 2 个 MLP 层,将 MIT-BIH
其判断 准 确 率 为 72.49% ,而 LCNN 在 该 测 试 数 数据库中的 44 条记录作为实验数据,得到室性异位
据上 的 分 类 结 果 为 83.
72%

.与 文 献 [
48]
93]相 比: 心拍(
VEB)和室上性 异 位 心 拍 (
SVEB)的 分 类 准 确
1)LCNN 实际上 也 是 一 个 端 对 端 的 学 习 方 法,将
( 率分别为 99% 和 97.
6%.然而这些研究工作仅利用
中间的卷积层和池化层提取得到的特征输入到全连 了标准数据库中的 部 分 数 据,不 能 够 充 分 体 现 模 型
接层中,最后由 s
oftmax 层 进 行 分 类;(
2)对 于 较 大 在实际应用中的整体分类性能 .
规模的数 据 集,LCNN 比 ECG-MTHC 更 易 于 训 练; 由于不同的时间序列可能需要不同时间尺度上
3 由于 LCNN 的深度架构及复杂的网络结构,使它
( ) 的不同特征表示,但 是 现 有 的 许 多 算 法 没 有 考 虑 到
具有很 强 的 非 线 性 拟 合 能 力,克 服 了 ECG-MTHC 这些因素,而且由于高频干扰及随机噪声的影响,在
中 SVM 非线 性 拟 合 能 力 有 限 的 缺 点 .最 终,
LCNN 实时时间序列数据中具有判别性的模式通常也会变
的分类准确率 高 于 ECG-MTHC 的 准 确 率 .周 飞 燕 形 .为了克服这些问题,
Cui等人 97 提出了一种基于
[ ]

等人 [
将 LCNN 作为基分类器提出了一种基于集成
94]
多尺度 CNN 的时间序列分类模 型(称 为 MCNN 模
学习的室性早博识别方法,采用该方法对 MIT-BIH 型).MCNN 模 型 包 含 3 个 阶 段:变 换 阶 段、局 部 卷
中的 48 条记录进行 室 性 早 搏 心 拍 分 类 得 到 的 准 确 积阶段、全卷积阶 段 .变 换 阶 段:首 先 对 输 入 数 据 分
率为 99.
91% ;同 时 该 文 还 注 重 模 拟 医 生 诊 断 ECG 别采用不同的变换(包含时域中的恒等映射、下采样
的思维过程,采用 LCNN 与室性早搏诊断规则相结 变换以及频域中的光谱变换),假设原始输入数据分
合的方法对 CCDD 进行 按 记 录 的 室 性 早 搏 分 类,得 别经过上述 3 种变换,则得到 3 种变换数据 .局部卷
87%.在 与 文 献 [
到的测试准 确 率 为 97. 48]相 同 的 积阶段:将 3 种变换 数 据 作 为 3 个 并 联 卷 积 层 的 输
数据集上,
Jin 等人 ① 还分别采用显性训练方法及 隐 入(一种 变 换 数 据 输 入 到 一 个 卷 积 层 中,这 与 文 献
性训练 方 法 独 立 训 练 两 个 LCNN 模 型 并 进 行 正 异 48]的 LCNN 模 型 类 似 ),每 个 卷 积 层 后 紧 随 着 一

常分类,然后采用集成学习中的融合规则方法融合这 个池化层 .全卷积阶段:局部卷积阶段的 3 个池化层
两个分类器的判别结果,最后再采用规则推理分别对 连接到同一个卷积层中进行信息汇总,在该阶段中可
LCNN 融合后判断出来 的 正 异 常 类 作 再 次 判 断,最 以采用多个卷积层和多个池化层进行交替设置,最后
终得到的准 确 率 为 86.
22% ,所 得 分 类 结 果 优 于 文 跟随着 一 个 全 连 接 层 及 so
ftmax 层 .与 文 献 [
48]相
献[
48].实验结果表明,利 用 CNN 与 其 它 方 法 相 结 比:MCNN 在 卷 积 层 中 将 多 通 道 的 数 据 进 行 整 合,
合是提升整体分类性能的一种有效途径 . 文献[48]则在全连接层中进行信息汇总,MCNN 对
然而在文 献 [
48, 94]的 CNN 结 构 中,它 们
87, 卷积核大小及池化 核 大 小 的 设 置 也 不 一 样 .MCNN
的全连接层只能接 受 固 定 长 度 的 输 入,因 此 在 网 络 可以处理 多 元 时 间 序 列,它通过将 原 始 数 据 下 采 样
训练之前需要将 ECG 记录截取到固定长度 .但是在 到不同的时间尺度使其不仅能够提取不同尺度的低
实际应 用 中,ECG 记 录 的 长 度 通 常 不 一 致,如 在 级特征还能够提取更高级的特征 .
CNN 除了用于时
CCDD 中 ECG 记录 的 长 度 为 10s~30s,而 且 有 的 间序列分类外,
还可以用于时间序列度量学习[98].
疾 病(如 早 搏)可 以 发 生 在 一 条 记 录 的 前 几 秒 ,它
5 其它应用
5.
也 可 发 生 在 记 录 中 的 中 间 几 秒 或 者 最 后 几 秒 ,这
Redmon 等人 99 将目标检测看成是一个回归问
[ ]

种截取到固定长度的方式可能会使信 息 丢 失 比 较
题,采用一个 具 有 24 个 卷 积 层 和 2 个 全 连 接 层 的
严重.
CNN 结 构 (也 称 为 YOLO,
You On
lyLook On
ce)进
ng等人 95 96 将一种多通道的深层 CNN 模型
[ , ]
Zhe
行目标检 测 .在 YOLO 中,输 入 整 幅 图 像,并 将 图 像
(Mu
lti-Chann
elsDe ep Convo
lut
ion Ne
ura
lNe
two
rks,
划分为 7×7 个网格,通过 CNN 预测每 个 网 格 的 多
MC-DCNN)应用于时 间 序 列 分 类 中,每 一 通 道 的 数
个包围盒(
bound
i s,用 来 包 裹 场 景 中 目 标 的
ngboxe
据都首先经 过 一 个 独 立 的 CNN 结 构,其 中 每 一 通
几何体)及 这 些 包 围 盒 的 类 别 概 率 .YOLO 将 整 幅
道的输入是 一 个 时 间 序 列,然 后 将 每 一 个 CNN 结
构的最后一 层 卷 积 层 全 连 接 到 MLP 中 进 行 分 类,
① Ji
nL i
n-Peng,DongJun.C lass
if
ica
tionofnormalandabnormal
在 BIDMC 充血性心力衰竭数 据 集 上 的 检 测 准 确 率 ECGr ecordsusi
ngl e
adc onvol
utionalneura
lne tworkand
ruleinf
erence[J].Sc iences China Inf
ormati
on Science,
为94.
65% ,优于其他一些算法 .
Kir z等人 27 提
anya
[ ]
2017.doi:10.1007/s11432-016-9047-6)
1244 计 算 机 学 报 2017 年

图 像 作 为 下 文 信 息,使 得 背 景 误 差 比 较 小 .YOLO 构,并 将 不 同 网 络 结 构 的 CNN 模 型 应 用 于 MIT-


的检测速度也非常快,在 Ti
tanX 的 GPU 上每秒钟 BIH 数据库中的室性早 搏 心 拍 分 类 中 .根 据 各 个 实
可以处理 45 幅 图 像 .然 而 YOLO 也 有 存 在 一 些 不 验结果,分析 了 CNN 各 参 数 间 的 相 互 关 系 及 不 同
足:(
1)因 为 每 个 网 格 只 预 测 两 个 包 围 盒 且 只 有 一 参数设置 对 分 类 结 果 的 影 响 .将 MIT-BIH 数 据 库
个类别,因此它具有很强的空间约束性,这种约束限 中 48 条记录的 110109 个心拍划分为 CNN 模 型 的
制了模型对邻近目 标 的 预 测,同 时 如 果 小 目 标 数 量 训练集和测试集,其 中 随 机 选 取 24100 个 心 拍 作 为
2)对 于 不 包 含 在
过多也会影 响 模 型 的 检 测 能 力;( 训练集,其余心拍为测试 集,同 时 采 用 BP 算 法 进 行
训练集中的目标或 者 有 异 常 比 例 的 目 标,它 的 泛 化 有监督训练(用 开 源 工 具 The
ano 实 现).每 个 CNN
能力不是 很 好;(
3)模 型 主 要 的 误 差 仍 然 因 为 是 不 结构的训练集和测 试 集 都 一 样 .心 拍 截 取 方 式 与 文
能精准定位而引起的误差 .由于 YOLO 不能精准定 献[
94]一致 .本文采用 AUC 48 即 ROC 曲 线 下 的 面
[ ]

位,这也使得它的检测精度小于 Fa
ste
[ ]
rR-CNN 100 , 积来衡量每 个 CNN 结 构 的 室 性 早 搏 分 类 性 能 .一
但是 YOLO 的 速 度 更 快 .
Fast
erR-CNN 是 候 选 框 般来说,
AUC 值越大,算法分类性能越好 .
网络 Reg
( i
on Pr
oposalNe two RPN)100 与 Fa
rk,
[ ]

t 本文 所 采 用 的 网 络 结 构 深 度 共 有 4 种:深 度 为
R-CNN 101 结合并 共 享 卷 积 层 特 征 的 网 络,它 也 是
[ ]
5(含 输 入 层、输 出 层、全 连 接 层、
1个卷积层及1个
基于分类 器 的 方 法 [79].由 于 YOLO 检 测 精 度 不 是
池化层)、
7(含 输 入 层、输 出 层、全 连 接 层、
2个卷积
很 高,因 此 Lu 等 人 102 基 于 YOLO 提 出 了 SSD

[ ]
层及 2 个池化层)、
9(含 输 入 层、输 出 层、全 连 接 层、

Sing
leSho
tDe t
ect
or)模 型 .SSD 利 用 了 YOLO 的
3 个卷积层及 3 个池化层)及 11(含输入层、输出层、
回归思 想,同 时 还 借 鉴 了 Fa
str R-CNN 的 锚 点 机

全连 接 层、
4 个 卷 积 层 及 4 个 池 化 层).首 先 讨 论 卷
制( r机制).它与 YOLO 一样通过回归获取目
ancho
积核大小对分类性能的影响 .实验过程:分别对每一
标位置和类 别,不 同 的 是:
SSD 预 测 某 个 位 置 采 用
种深度设置 5 个 不 同 的 CNN 模 型,这 5 个 不 同 的
的是该位置 周 围 的 特 征 .最 终,
SSD 获 得 的 检 测 精
CNN 模型除 卷 积 核 大 小 外,其 它 参 数 如 特 征 面 数
度与 Fa
str R-CNN 的 差 不 多,但 是 SSD 保 持 了

目、池 化 核 大 小、全 连 接 层 神 经 元 个 数 均 相 同 .如
YOLO 快 速 检 测 的 特 性 .此 外,
CNN 还 可 用 于 短 文
表 2 所示 .
本聚类 [103]
、视觉追踪 [
104]
、图像融合 [105]等领域中 .
表 2 列出了每个卷积层和池化层对应卷积核的
6 CNN 的优势
5.
大小及池 化 核 的 大 小 .每 一 行 参 数 构 成 一 个 CNN
CNN 具有 4 个特点:局部连接、权值共享、池化
模型,表中特征面数 目 为 每 个 卷 积 层 所 采 用 的 特 征
操作及多 层 结 构 [11].
CNN 能 够 通 过 多 层 非 线 性 变
面个数,由于卷积层与池化层特征面唯一对应,所以
换,从数据中自动学习特征,从而代替手工设计的特
卷积层特征面个数 确 定 后,紧 跟 其 后 的 池 化 层 特 征
征,且深层的结构使它具有很强的表达能力和学习能
面个数也唯 一 确 定 .表 2 的 这 5 个 CNN 模 型 只 有
力[70].许多研究实验已经表明了 CNN 结构中深度的
重要性 .例如从结构来看, 卷积核大小不同 .从表 2 的分类结果可看出,对于网
Al t、
exNe VGG、
Goo
leNe

及 Re 络深度为 11 的模型,随着卷积核变大,
AUC 先增加
t的一个典型 的 发 展 趋 势 是 它 们 的 深 度 越
sNe
来越深 [37].在 CNN 中,通过增加深度从而增加网络 后减小 .对于另外 3 组实验:在深度为 5 和 7 的模型

的非线性来使它能 够 更 好 地 拟 合 目 标 函 数,获 得 更 中,随着卷积核的增大,


AUC 先减小后增加再减小;
好的分布式特征 [
11]
. 深度为 9 的模 型,随 着 卷 积 核 增 大,
AUC 先 较 小 后
趋于平稳再 减 小 .图 9 所 示 为 深 度 是 5 的 CNN 结

6 关于 CNN 参数设置的一些探讨 构(含 1 个 卷 积 层 和 1 个 池 化 层)随 着 卷 积 核 的 改


变,其分类性能的 变 化 曲 线 图 .通 过 实 验 发 现,在 某
1 ECG 实验分析
6. 一个范围内我们能够找到一个比较合适的卷积核的
CNN 在计算机辅助 ECG 分析领域中的研究已 大小,卷积核过大或者过小均不利于模型的学习 .在
初见端倪 .本文就 CNN 在 计 算 机 辅 助 ECG 分 析 应 本实验中,卷积核的 大 小 取 值 范 围 在 [ 16]时,其
10,
用中,设计了 不 同 参 数 及 不 同 深 度 的 CNN 网 络 结 模型能够获得一个更好的分类结果 .
6期 周飞燕等:卷积神经网络研究综述 1245

表 2 深度为 11 的 5 个不同网络结构的 CNN 分类结果



tage
1 S
tage
2 S
tage
3 S
tage

特征面数目 深度 AUC
卷积层 池化层 卷积层 池化层 卷积层 池化层 卷积层 池化层
1×3 1×2 1×4 1×2 1×4 1×2 1×4 1×2 (
8,8,
8,8) 11 0.
9979
1×7 1×2 1×6 1×2 1×6 1×2 1×6 1×2 (
8,8,
8,8) 11 0.
9980
Dep_
11A 1×11 1×2 1×10 1×2 1×11 1×2 1×10 1×2 (
8,8,
8,8) 11 0.
9987
1×15 1×2 1×14 1×2 1×14 1×2 1×15 1×2 (
8,8,
8,8) 11 0.
9967
1×19 1×2 1×18 1×2 1×19 1×2 1×19 1×2 (
8,8,
8,8) 11 0.
9967

来看,随着 模 型 深 度 的 增 加,其 分 类 结 果 也 越 来 越
好 .在本实验中,模型通常在池化核 大 小 为 2 或 者 3
时取 得 相 对 较 好 的 分 类 结 果 .表 3 列 出 了 深 度 为 9
的 3 个不同网络结构的 CNN 室性早搏分类结果 .
为了 探 讨 特 征 面 数 目 对 分 类 性 能 的 影 响,这 里
我们也对每一种深度分 别 设 置 5 个 不 同 的 CNN 模
型 .其 中,这 5 个 CNN 模 型 除 特 征 面 数 目 外,其 它
参数设置一 样 .通 过 实 验 发 现,如 果 特 征 面 数 目 过
小,其分类性能较 差 .这 是 由 于 特 征 面 数 目 过 少,使
图 9 卷积核大小与分类性能的影响 得一些有利于网络 学 习 的 特 征 被 忽 略 掉,因 而 不 利
为了讨论池化 核 大 小 对 分 类 性 能 的 影 响,我 们 于模型的学习 .然而,当特征面数目大于 40 时,模型
同样对每 一 种 深 度 分 别 设 置 3 个 不 同 的 CNN 模 的训练时间大大增加,这同样不利于模型的学习 .通
型 .类似地,这 3 个 CNN 模型,除了池化核大小外, 过实验可知,本实验中,比较好的特征面数目选取范
其他参数设置均相 同 .由 于 池 化 核 大 小 要 使 式 (
11) 围为[
10,35].表 4 列 出 了 深 度 为 11 的 5 个 不 同 网
能够整除,因此对于某一深度的网络,池化核大小不 络结构 的 CNN 分 类 结 果,在 这 5 个 CNN 结 构 中,
能够随意取值 .从几组实验的结果来看,一般来说随 只有特征 面 数 目 不 同,且 随 着 特 征 面 数 目 的 增 加,
着池化核大小的增加,
AUC 先 增 加 后 减 小 .从 总 体 AUC 先增加再减小后增加 .
表 3 深度为 9 的 3 个不同网络结构的 CNN 分类结果

tage
1 S
tage
2 S
tage

特征面数目 深度 AUC
卷积层 池化层 卷积层 池化层 卷积层 池化层
1×5 1×1 1×5 1×1 1×5 1×1 (
16,
16,
16) 9 0.
9970
Dep_
9 1×5 1×2 1×5 1×2 1×5 1×2 (
16,
16,
16) 9 0.
9980
1×5 1×4 1×5 1×5 1×5 1×5 (
16,
16,
16) 9 0.
9978

表 4 深度为 11 的 5 个不同网络结构的 CNN 分类结果



tage
1 S
tage
2 S
tage
3 S
tage

特征面数目 深度 AUC
卷积层 池化层 卷积层 池化层 卷积层 池化层 卷积层 池化层
1×5 1×2 1×5 1×4 1×5 1×4 1×5 1×4 (
3,3,
3,3) 11 0.
9846
1×5 1×2 1×5 1×4 1×5 1×4 1×5 1×4 (
6,6,
6,6) 11 0.
9910
Dep_
11B 1×5 1×2 1×5 1×4 1×5 1×4 1×5 1×4 (
12,
12,
12,
12) 11 0.
9971
1×5 1×2 1×5 1×4 1×5 1×4 1×5 1×4 (
24,
24,
24,
24) 11 0.
9956
1×5 1×2 1×5 1×4 1×5 1×4 1×5 1×4 (
48,
48,
48,
48) 11 0.
9972

表 5 所示为 4 个 不 同 深 度 的 CNN 模 型 及 其 室 表 5 不同深度的 CNN 分类结果


Model 具体结构 特征面数目 深度 AUC
性早搏分类结果 .在每一个 S
tage:(
1×5)+ (
1×2)
l_
Mode A S
tage1:(
1×5)+ (
1×2) 15 5 0.
9971
中,
1×5 表示卷积 层 中 卷 积 核 大 小,
1×2 表 示 紧 跟 S
tage1:(
1×5)+ (
1×2);
Model_
B (
15,
15) 7 0.
9975

tage2:(
1×5)+ (
1×2)
其后的池化层的池化核大小 .实验结果表明,随着深

t 1:(
age 1×5)+ (
1×2);
度的加深,网络性能也越来越好 . l_
Mode C S
t 2:(
age 1×5)+ (
1×2); 15,
( 15,
15) 9 0.
9981

t 3:(
age 1×5)+ (
1×2)
为了探讨 CNN 的深度、卷积核大小、池化 核 大 S
t 1:(
age 1×5)+ (
1×2);

t 2:(
age 1×5)+ (
1×2); ( , , , )
小及特征面数目之间的关系,我们采用不同的深度、 l_
Mode D 15 15 15 15 11 0.
9985

t 3:(
age 1×5)+ (
1×2);
卷积 核 大 小 、池 化 核 大 小 及 特 征 面 数 目 设 计 了350 S
t 4:(
age 1×5)+ (
1×2)
1246 计 算 机 学 报 2017 年

多个不同的 CNN 模型 .这些不同的 CNN 模型均利 MIT-BIH 数据库进行的;(2)深 度 比 卷 积 核 大 小 及


用与上述相同的训 练 集 和 测 试 集 进 行 实 验 .通 过 实 池化核大小更重要;( 3)随 着 网 络 深 度 的 加 深,模 型
验发现:(
1)对于同 一 深 度,特 征 面 数 目 比 卷 积 核 大 分类性能来越越好;(
4)对 于 同 一 个 深 度 的 模 型,特
小更重 要,具 有 更 小 卷 积 核 及 更 大 特 征 面 数 目 的 征面数目越大,分类性能越好 .
CNN 模型比具有 更 大 卷 积 核 且 更 小 特 征 面 数 目 的 2 脉搏波实验分析
6.
CNN 模型获得更好的分类结果,这与文献[ 36]中特 胡晓娟 [106]采 用 两 种 不 同 深 度 的 CNN 结 构 分
征面数目与卷积核 大 小 所 发 挥 的 作 用 相 当 不 一 样, 别在健康/亚健康数据集及动脉硬化/肺动脉硬化数
同时也说明了对于不同的数据库,
CNN 的分类性能 据集进行分 类 实 验 .表 6 为 不 同 CNN 模 型 分 别 在
会有些 不 一 样 的 表 现,本 小 结 的 实 验 分 析 是 基 于 两个数据集上的测试结果 .

表 6 不同深度的 CNN 在脉搏波上的分类结果


健康/亚健康 动脉硬化/非动脉硬化
Mode

特异性/% 灵敏度/% 准确率/% 特异性/% 灵敏度/% 准确率/%
CNN(
7L) 70.
87 64.
14 67.
50 96.
62 89.
09 94.
78
CNN(
9L) 75.
64 68.
99 72.
31 96.
64 95.
53 96.
33

表 6 中 CNN(
7L)表示该 CNN 的 深 度 为 7 层, 2)对 于 一 个 具 体 的 任 务,仍 很 难 确 定 使 用 哪

而 CNN(
9L)模型的深度为 9 层 .从上述结果也可看 种网络结构,使用多少层,每一层使用多少个神经元
出,在两个 数 据 集 上 CNN(
9L)模 型 所 得 各 指 标 均 等才是合适的 .仍然 需 要 详 细 的 知 识 来 选 择 合 理 的
高于 CNN(
7L)模 型,同 时 也 说 明 了 增 加 网 络 的 层 值如学习率、正则化的强度等 [107].
数可以挖掘脉搏波更深层的特征,深度越深,模型的 3)如果训练数 据 集 与 测 试 数 据 集 的 分 布 不 一

性能越好 . 样,则 CNN 也很难获得 一 个 好 的 识 别 结 果,特 别 是
对于复杂的数据例 如 临 床 ECG 数 据 .因 此,需 要 引
7 总 结 入 CNN 模型的 自 适 应 技 术,可 考 虑 将 自 适 应 抽 样
等应用于 CNN 模型中 [16].
近年来,
CNN 的局部连接、权值共享、池化操作 4)尽管 依 赖 于 计 算 机 的 CNN 模 型 是 否 与 灵

及多层结构等优良特性使其受到了许多研究者的关 长类视觉系统相似 仍 待 确 定,但 是 通 过 模 仿 和 纳 入
注.
CNN 通 过 权 值 共 享 减 少 了 需 要 训 练 的 权 值 个 灵长类视觉系统也能 使 CNN 模 型 具 有 进 一 步 提 高
数、降低了网络的计算复杂度,同时通过池化操作使 性能的潜力 [107].
得网络对输入的局部变换具有一定的不变性如平移 5)目 前,
( CNN 在 计 算 机 辅 助 ECG 分 析 领 域
不 变 性、缩 放 不 变 性 等,提 升 了 网 络 的 泛 化 能 力 . 中,其输入维数需保持一致 .为了使输入维数保持一
CNN 将原始数据直接输入到网络中,然后隐性地从 致,需要将原始数据截取 到 固 定 长 度,然 而 RNN 可
训练数据中进行网络学习,避免了手工提取特征、从 以处理长 度 不 等 的 数 据,因 此 需 考 虑 如 何 将 CNN
而导致误差累积的缺点,其整个分类过程是自动的 . 与 RNN 相结合,并应用于 ECG 记录分类中 .
虽然 CNN 所具有的这些 特 点 使 其 已 被 广 泛 应 用 于 6)在 隐 性 训 练 中,如 何 将 整 个 训 练 过 程 中 的

各种领域中,但其优 势 并 不 意 味 着 可 以 解 决 或 改 善 最佳分类模型保存 下 来 也 是 一 个 值 得 探 讨 的 问 题 .
以往各种问题 .比如,由对金融数据的初步分析结果 在文献[
48]的隐性 训 练 中,当 所 有 的 训 练 样 本 在 一
可知,
CNN 并未获 得 预 期 性 能,可 能 原 因 是 金 融 数 个训练周期 内 都 参 与 BP 反 向 传 播 过 程 后,才 输 出
据本身缺乏规律、易 受 干 扰 以 及 预 测 结 果 反 过 来 会 整个训练中的测试结果,如 果 此 时 其 准 确 率 是 目 前
影响走势等特点所致 .
CNN 仍有许多工作需要进一 为 止 最 高 的 ,则 保 存 当 前 分 类 模 型 .事 实 上 ,我 们
步去做: 还 可 以 对 它 做 进 一 步 的 改 进 ,例 如 当 部 分 样 本 进
(1)目 前 所 使 用 的 CNN 模 型 是 Hube
l-Wi
ese
l 行 BP 训 练 后 ,就 可 采 用 校 验 样 本 测 试 当 前 的 模
模型 简化的版本,有待进一步借鉴 Hube

28]
l-Wi
ese
l 型 ,然后判断该模型 是 否 为 迄 今 为 止 性 能 最 佳 的 分
模型,对它进行深入 研 究 并 发 现 结 构 特 点 及 一 些 规 类模型 .
律,同时还需 引 入 其 它 理 论 使 CNN 能 够 充 分 发 挥 总之,
CNN 虽然 还 有 许 多 有 待 解 决 的 问 题,但
其潜在的优势 . 是这并不影响今后它在模式识别与人工智能等领域
6期 周飞燕等:卷积神经网络研究综述 1247

中的发展与应用,它 在 未 来 很 长 的 一 段 时 间 内 仍 然 [
15] Sa
lakhu
tdnovR,Hi
i nton G.Ane
ffi
cien
tle
arn
ingp
roc
edur


orde
ep Bo
ltzmann ma
chi
nes.Neur
al Compu
tat
ion,2012,
会是人们研究的一个热点 .
24(
8):1967-2006

16] L
iuJ
i i, L
an-We iu Yuan, Luo Xi
ong-L
in. Re
sea
rch and
致 谢 感谢朱洪海博士关于金融数据的尝试!
deve
lopmen
ton Bo
ltzmann ma
chi
ne.J
our
nalo
f Compu
ter
Re
sea
rchandDeve
l t,2014,51(
opmen 1):1-16(
inCh
ine
se)
参 考 文 献 (刘建伟,刘媛,罗雄麟 .波尔兹曼机研究进展 .计算机 研 究
与发展,2014,51(
1):1-16)

17] Vi
nc tP,La
en roche
lle H,Beng
io Y,e
tal.Ex
tra
cti
ngand

1] McCu
llch W S,P
o itt
s W.A l
ogi
calc
alcu
lus o
fthei
dea


ompo
sing r
obus
tfe
atur
es wi
th deno
isi
ng au
toenc
ode
rs//
ti
immanen n ne
rvous a
cti
vit
y. Bu
lle
tino
f Ma
thema
tic
al
Pr
oce
edi
ngso
fthe25
thi
nte
rna
tiona
lCon
fer
enc
eon Ma
chi
ne

iophys
ics,1943,5(
4):115-133
[ Le
arn
ing.He
lsi
nki,F
inand,2008:
l 1096-1103
2] Ro
senb
lat
t F.The pe
rcep
tron: A p
robab
ili
sti
c mode
lfo


18] Vi
nc tP,La
en roche
lleH,Beng
ioY,e
tal.S
tackeddeno
isi
ng

nfo
rma
tions
tor
ageando
rgan
iza
tioni
ntheb
rai
n.Ps
ycho
log
ica

au
toenc
ode
rs: Le
arn
ing us
efu
lrep
res
ent
ati
ons i
n a de
ep
Rev
iew,1958,65(
6):386-408
ne
two
rk wi
thal
oca
ldeno
isi
ngc
rit
eri
on.J
our
nalo
f Ma
chi
ne

3] Ro
senb
lat
tF.Pr
inc
ipl
eso
f Neur
odi
nami
cs:Pr
ecep
tronand
Le
arn
ingRe
sea
rch,2010,11(
12):3371-3408
Theo
ryo
f Br
ain Me
chan
isms.Wa
shi
ngon,USA:Spa
t rtan

19] LeCun Y,Bo
ttouL,Beng
ioY,e
tal.Gr
adi
ent-ba
sedl
ear
ning
Books,1962
[ app
liedt
odo
cumen
tre
cogn
iti
on.Pr
oce
edi
ngso
ftheIEEE,
4] Rume
lha
rtDE,Hi
ntonG,Wi
ll
iamsRJ.Le
arn
ingr
epr
esen-
1998,86(
11):2278-2324

ati
ons by ba
ck-p
ropaga
ting e
rro
rs. Na
t e, 1986, 323
ur
( [
20] LeCun Y,Bo
ser B,Denke
r J S,e
tal.Ba
ckp
ropaga
tion
6088):533-536
[ a
ppl
iedt
oha
ndwr
it
tenz
ipc
oder
eco
gni
tion.Ne
ura
lCompu
tat
ion,
5] Co
rts C, Vapn
e ik V.Suppo
rt ve
cto
r ne
two
rks. Ma
chi
ne
1989,11(
4):541-551
Le
arn
ing,1995,20(
3):
273-297

21] Dav
idS,Huang A,Madd
idon C J.Ma
ste
ringt
hegameo


6] Hi
nton G,Sa
lakhu
tdi
nov R R.Reduc
ingt
hed
imens
iona
lit

Go wi
th de
ep neur
al ne
two
rks and t
rees
ear
ch. Na
t e,
ur

fda
ta wi
th neur
alne
two
rks.Sc
i e,2006,313(
enc 5786):
2016,529(
7587):484-489
504-507
[ [
22] Lawr eS,Gi
enc lesCL,Ts
oiA C,e
tal.Fa
cer
ecogn
iton:A

7] Yu Ka
i,J
i i,Chen Yu-Qi
a Le ang,e
tal.De
ep l
ear
ning:
Ye
ste
rdy,t
a ody,a
a ndt
omo
rrow.J
our
nalo
fCompu
terRe
sea
rch c
onvo
lut
iona
lneur
al-ne
two
rk app
roa
ch.IEEE Tr
ans
act
ions

ndDeve
a l t,2013,50(
opmen 9):1799-1804(
inCh
ine
se) on Neur
alNe rks,1997,8(
two 1):98-113

(于凯,贾磊,陈宇强 等 .深 度 学 习 的 昨 天、今 天 和 明 天 .计 [
23] Neubaue
rC.Eva
lua
tiono
fconvo
lut
iona
lneur
alne
two
rksf
or
算机研究与发展,2013,50(
9):1799-1804) v
isua
lre
cogn
iti
on.IEEE Tr
ans
act
ionson Neur
alNe rks,
two


8] Beng
ioY,Lamb
linP,Popov
iciD,e
tal.Gr
eedyl
aye
r-wi
se 1998,9(
4):
685-696


rai
ningo
fde
epne
two //Pr
rks oce
edi
ngso
fthe2007Advanc
es [
24] Kr
izhe
vsky A,Su
tske
ve I,Hi
rI ntonG.Imagene
tcl
ass
if
ica
tion


nNe
ura
lIn
forma
tionPr
oce
ssi
ngSy
stems.Va
ncouv
er,Ca
naa,
d wi
thde
epc
onvo
lut
iona
lneur
alne
two //Pr
rks oce
edi
ngso
fthe

2007:153-160 Advanc
esi
n Neur
alI
nfo
rma
tion Pr
oce
ssi
ng Sys
tems.Lake

9] Ran
zao M A,Pou
t lt yC,Chop
ne raS,e
tal.Ef
fi
cien
tle
arn
ing Tahoe,USA,2012:1097-1105


f spa
rser
epr
esen
tat
ions wi
th an ene
rgy-ba
sed mode
l// [
25] Na
ir V, Hi
nton G E, Fa
rabe
t C.Re
cti
fied l
ine
ar un
its
Pr
oce
edi
ngs o
fthe 2007 Advanc
esi
n Neur
alI
nfo
rma
tion imp
rover
est
ric
ted Bo
ltzmann ma
chi
ne//Pr
s oce
edi
ngso
fthe
Pr
oce
ssi
ngSys
tems.Vanc r,Canada,2007:1137-1144
ouve 27
thI
nte
rna
tiona
lCon
fer
enc
eon Ma
chi
ne Le
arn
ing.Ha
ifa,

10] ErhanD,Beng
ioY,Cour
vil
leA,e
tal.Whydoe
sunsupe
r- I
sra
el,2010:807-814


ised p
re-t
rai
ning he
lp de
epl
ear
ning?J
our
nalo
f Ma
chi
ne [
26] Hagan M T,Demu
th H B,Be
ale M H.Neur
al Ne
two
rk
Le
arn
ingRe
sea
rch,2010,11(
3):625-660 De
sign.Tr
ans
laed by Da
t i, Be
i Ku ii
jng: Ch
ina Ma
chi
ne

11] Le
cun Y,Beng
io Y, Hi
nton G.De
ep l
ear
ning.Na
t e,
ur Pr
ess,2002(
inCh
ine
se)

2015,521(
7553):436-444 (Hagan M T,Demu
th H B,Be
ale M H.神 经 网 络 设 计 .戴

12] Beng
ioY.Le
arn
ingde
epa
rch
ite
ctur
esf
or AI.Founda
tions 葵,译 .北京:机械工业出版社,2002)

andTr
endsi
n Ma
chi
neLe
arn
ing,2009,2(
1):1-127 [
27] Ki
r zS,I
anya nce T,Gabbou
j M.Re
al-t
imepa
tien
t-s
pec
ifi


13] Hi
nton G,Os
inde
roS,Teh Y-W.Af
astl
ear
ninga
lgo
rit
hm ECG c
las
sif
ica
tion by 1D c
onvo
lut
iona
l neur
al ne
two
rks.

orde
ep be
lie
f ne
ts.Neur
al Compu
tat
ion,2006,18(
7): IEEE Tr
ans
act
ionsonB
iomed
ica
lEng
ine
erng,2016,63(
i 3):
1527-1554 664-675

14] Sa
lakhu
tdnov R, Hi
i nton G. De
ep Bo
ltzmann ma
chi
nes. [
28] Hub
elD H,Wi
ese
lT N.Re
cep
tiv
efi
eld
sbi
noc
ula
rin
ter
act
ion,

our
nalo
f Ma
chi
ne Le
arn
ing Re
sea
rch-Pr
oce
edi
ngs Tr
ack, andf
unc
tiona
lar
chi
tec
tur
eint
hec
at’
svi
sua
lco
rtex.J
our
nal
2009,9(
1):448-455 o
fPhys
ioogy,1962,160(
l 1):106-154
1248 计 算 机 学 报 2017 年


29] Fuku
shimaK.Ne
oco
gni
tron:A s
elf-o
rga
niz
ingn
eur
aln
etwo
rk [
44] Sr
iva
stavaN,Hi
nton G,Kr
i sky A,e
zhev tal.Dr t:A
opou
mode
lfo
ra me
chan
ism o
fpa
tte
rnr
ecogn
iti
on una
ffe
ctedby s
imp
le way t
opr
even
t neur
al ne
two
rks f
rom ove
rfi
tti
ng.
sh
ifti
npo
sit
ion.B
iol
ogi
calCybe
rne
tis,1980,36(
c 4):193- J
our
nalo
f Ma
chi
neLe
arn
ing Re
sea
rch,2014,15(
6):1929-
202 1958

30] Yo
oH-J.De
epc
onv
olu
tionn
eur
aln
etwo
rksi
ncompu
terv
ison:
i [
45] Sa
ina
thaT N,Ki yaB,SaonaG,e
ngsbur tal.De
epc
onvo
lu-
Ar
evi
ew.IEIE Tr
ans
act
ions on Sma
rt Pr
oce
ssi
ng and t
iona
lneur
alne
two
rksf
orl
arge-s
cal
espe
echt
asks.Neur
al
Compu
ting,2015,4(
1):35-43 Ne rks,2015,64(
two Spe
cia
lIsue):39-48


31] GaoL
i-Gang,ChenPa
i-Yu,YuSh
i-Meng.Demons
tra
tiono
f [
46] ChuJL,Kr
zyz
ak A.Ana
lys
iso
ffe
atur
e mapss
ele
cti
oni


onvo
lut
ion ke
rne
lope
rat
ion onr
esi
sti
vec
ros
s-po
inta
rray. //
supe
rvi
sedl
ear
ning us
ing c
onvo
lut
iona
l neur
al ne
two
rks
IEEE El
ect
ronDev
iceLe
tte
rs,2016,37(
7):870-873
Pr
oce
edi
ngso
fthe 27
th Canad
ian Con
fer
enc
e on Ar
tif
ici
al

32] J
inL
in-Peng. S
tudy on App
roa
ch o
f El
ect
roc
ard
iog
ram

nte
ll
igenc
e.Mon
tre
al,Canada,2014:59-70

las
sif
ica
tionf
orC
lin
ica
l App
lic
aton[
i Ph.D.d
iss
ert
aton].


47] Cao K,J
ain A K.La
ten
tor
ien
tat
ion f
iel
des
tima
tion v
ia
Suzhou I
nst
itu
teo
f Nano-t
ech and Nano-b
ion
ics,Ch
ine
se

onvo
lut
iona
lneur
alne rk//Pr
two oce
edi
ngso
fthe2015I
nte
r-
Ac
ademyo
fSc
ienc
es,Suzhou,2016(
inCh
ine
se)
na
tiona
lCon
fer
enc
eonB
iome
tri
c t,Tha
s.Phuke iland,2015:
(金林鹏 .面向 临 床 应 用 的 心 电 图 分 类 方 法 研 究 [博 士 学 位 论
349-356
文].中国科学院苏州纳米技术与纳米仿生研究所,苏州,2016)

48] J
inL
in-Peng,DongJun.De
epl
ear
ningr
ese
arch onc
lin
ica


33] Xu B
ing, Wang Na
i-Yan,Chen Ti
an-Qi,e
tal.Emp
iri
cal

lec
tro
car
diog
ram ana
lys
is. Sc
ienc
e Ch
ina: I
nfo
rma
tion
eva
lua
tion o
fre
cti
fied a
cti
vat
ionsi
nconvo
lut
ion ne
two
rk.
Sc
ienc
es,2015,45(
3):398-416(
inCh
ine
se)
a v:
rXi 00853v2,2015
1505.
(金林鹏,董军 .面向临床心电图分析的 深 层 学 习 算 法 研 究 .

34] J
arr
ett K,Kavukcuog
lu K, Ma
rc’Aur
eli
o Ranz
ato,e
tal.
中国科学:信息科学,2015,45(
3):398-416)
Wha
tist
hebe
stmu
lti
-st
agea
rch
ite
ctu
ref
orob
jec
tre
cogn
iton?

//Pr [
49] HuangJu ng,L
i-Ti iJn-Yu,Gong Yi-Fan.An ana
i lys
iso

oce
edi
ngs o
f t
he 2009 IEEE 12
th I
nte
rna
tiona

Con
fer eonCompu
enc terVi
sion.Kyo
to,J
apan,2009:2146- c
onvo
lut
iona
l neur
al ne
two
rks f
or spe
ech r
ecogn
iton//

2153 Pr
oce
edi
ngso
ftheIEEEI
nte
rna
tion
alCon
fer
enc
eon Ac
ous
tis,


35] Beng
ioY,Cour
vil
leA,Vi
ncen
tP.Rep
res
ent
ati
onl
ear
ning: Spe
echand S
igna
lPr
oce
ssng (
i ICASSP).Sou
th Br
isbane,

Ar
evi
ewandnewpe
rspe
cti
ves.IEEE Tr
ans
act
ionsonPa
tte
rn Aus
tra
lia,2015:4989-4993

Ana
lys
isand Ma
chi
neI
nte
ll
i e,2013,35(
genc 8):1798-1828 [
50] L
i n,ChenQi
n Mi ang,YanShu
i-Cheng.Ne
two
rki
nne
two
rk.

36] He Ka ng,Sun J
i-Mi ian.Convo
lut
iona
lneur
alne
two
rksa
t a v:
rXi 4400v3,2013
1312.

ons
tra
inedt
imec
os//Pr
t oce
edi
ngso
ftheIEEE Con
fer
enc
e [
51] XuChun-Yan,LuCan-Yi,L
i ao-Dan,e
angXi tal.Mu
lti
-lo
ss
on Compu
ter Vi
sion and Pa
tte
rn Re
cogn
iton (CVPR ).
i r
egu
lar
izdd
e e
epn
eur
aln
etwo
rk.IEEE T
ran
sac
tion
s on C
irc
uit

Bo
ston,USA,2015:5353-5360 andSys
tems Fo
r Vi
deo Te
chno
logy,2015,26(
12):2273-

37] GuJ
i ang,WangZhen-Hua,J
u-Xi ason Kuen,e
tal.Re
cen
t 2283
advanc
esi
nconvo
lut
iona
l neur
al ne
two
rks.a v:1512.
rXi [
52] J
ade
rbe
rg M,S
imonyan K,Z
iss
erman A,e
tal.Spa
tia

07108v5,2017 t
rans
forme
rne
two
rks.a v:
rXi 02025v3,2016
1506.

38] Bour
eau Y-L,Roux N L,Ba
ch F,e
tal.Askt
hel
oca
ls: [
53] Ze
ilrM D,Kr
e ishnanD,Tay
lorG W,e
tal.De
convo
lut
iona

Mu
lti-wayl
oclpoo
a lingf
orimager
ecogn
iton//Pr
i oce
edi
ngs //Pr
ne
two
rks oce
edi
ngso
ftheIEEECon
fer
enc
eonCompu
ter

fthe2011I
nte
rna
tiona
l Con
fer
enc
e on Compu
ter Vi
sion.
Vi
sionandPa
tte
rnRe
cogn
iti
on.SanFr
anc
iso,USA,2010:

Ba
rce
lona,Spa
in,2011:2651-2658
2528-2535

39] Ze
ilr M D,Fe
e rgus R.S
tocha
sti
cpoo
lingf
orr
egu
lar
iza
tion

54] Ze
ile
r M D. Vi
sua
liz
ing and unde
rst
and
ing c
onvo
lut
iona

fde
o epc
onvo
lut
iona
lneur
alne
two
rks.a v:
rXi 3557v1,
1301.
ne
two //Pr
rks oce
edi
ngso
fthe13
th Eur
ope
an Con
fer
enc
eon
2013
Compu
terVi
sion (
ECCV).Zur
ich,Swi
tze
rland,2014:818-

40] Bour
eau Y-L,Ponc
eJ,LeCun Y.A t
heo
ret
ica
lana
lys
iso

833

eat
urepoo
lingi
nvi
sua
lre
cogn
iti
on.I
nte
rna
tiona
lCon
fer
enc


55] ZhaoJun-Bo,Ma
theu M,Go
i rosh
inR,e
tal.S
tackedwha
t-
on Ma
chi
neLe
arn
ing,2010,32(
4):111-118
whe
reau
to-enc
ode
rs.a v:
rXi 02351v8,2016
1506.

41] Bour
eau Y-L,Ba
ch F,LeCun Y,e
tal.Le
arn
ing mi
d-l
eve


56] J
iangZong-L
i.I
ntr
oduc
tiont
o Ar
iti
fic
ial Neur
al Ne
two
rks.

eat
ursf
e o
rre
cogn
iton//Pr
i oce
edi
ngso
ftheIEEECon
fer
enc

Be
ii
jng:Hi
ghe
rEduc
ati
onPr
ess,2001(
inCh
ine
se)
onCompu
terVi
sionandPa
tte
rnRe
cogn
iti
on.SanFr
anc
iso,

(蒋宗 礼 . 人 工 神 经 网 络 导 论 . 北 京:高 等 教 育 出 版 社,
USA,2010:2559-2566

42] Sa hT N,MohamedA,Ki 2001)
ina
t yB,e
ngsbur tal.De
epc
onvo-

uti
ona
l neur
al ne
two
rks f
or LVCSR//Pr
oce
edi
ngs o
fthe [
57] Faus
ettL.Fundamen
tal
sofNeu
ralNe
two
rks:Ar
chi
tec
tur
es,

IEEE I
nte
rna
tiona
l Con
fer
enc
e on Ac
ous
tis,Spe
c ech and Al
gor
ithms,andApp
lic
atons.London:Pr
i ent
ice-Ha
ll,1994


igna
lPr
oce
ssi
ng.Vanc r,Canada,2013:8614-8618
ouve [
58] Ng
iam J, Koh P W, Chen Z,e
tal.Spa
rsef
il
ter
ing//

43] O’ aK,Na
She shR.Ani
ntr
oduc
tiont
oconvo
lut
iona
lneur
al Pr
oce
edi
ngso
fthe Adv
anc
esi
n Neu
ralI
nfo
rma
tionPr
oce
ssi
ng
ne
two
rks.a v:
rXi 08458v2,2015
1511. Sys
tems24 (
NIPS2011).Gr
anada,Spa
in,2011:1125-1133
6期 周飞燕等:卷积神经网络研究综述 1249


59] DongZhen,Pe ng-Tao,He Yang,e
i Mi tal.Veh
icl
etype [
74] Sun Yi, Chen Yu-Heng, Wang Xi
ao-Gang,e
tal.De
ep

las
sif
ica
tionu
singun
sup
erv
ise
dconv
olu
tion
aln
eur
aln
etwo
rk// l
ear
ningf
acer
epr
esen
tat
ionbyj
oin
tiden
tif
ica
tion-ve
rif
ica
tion
Pr
oce
edi
ngso
fthe22ndI
nte
rna
tiona
lCon
fer
enc
eon Pa
tte
rn //Pr
oce
edi
ngs o
fthe Advanc
esi
n Neur
alI
nfo
rma
tion
Re
cogn
iti
on.S
to lm,Sweden,2014:172-177
ckho Pr
oce
ssi
ngSys
tems.Mon
tre
al,Canada,2014:1988-1996

60] DongZhen,Wu Yu-We
i,Pe ng-Tao,e
iMi tal.Veh
icl
etype [
75] Sun Yi, Wang Xi
ao-Gang,Tang Xi
ao-Ou.De
epl
yle
arned

las
sif
ica
tion us
ing a s
emi
supe
rvi
sed c
onvo
lut
iona
l neur
al f
acer
epr
esen
tat
ions a
re spa
rse,s
ele
ctve,and Robus
i t//

ne
two
rk.IEEE Tr
ans
act
ions on I
nte
ll
igen
t Tr
anspo
rta
tion Pr
oce
edi
ngso
ftheIEEE Con
fer
enc
eonCompu
terVi
sionand
Sys
tems,2015,16(
4):2247-2256 Pa
tte
rn Re
cogn
iton (
i CVPR).Bo
ston,USA,2015:2892-

61] J
inL
i ng,DongJ
n-Pe un.En
semb
led
eepl
ear
ningf
orb
iome
dic
al 2900

ime s
eri
esc
las
sif
ica
tion. Compu
tat
iona
lIn
tel
ligenc
e and [
76] Sun Yi,L
i ng,WangXi
angDi ao-Gang,e
tal.De
epID3:Fa
ce
Neur
osc
i e,2016,2016(
enc 3):1-13 r
ecogn
iton wi
i th ve
ry de
ep neur
alne
two
rks.a v:1502.
rXi

62] J
iaYa ng,Sh
ng-Qi elh rE,Don
ame eJ,e
ahu tal.Ca
ffe:Conv
olu- 00873v1,2015


ion
ala
rch
ite
ctur
efo
rfa
stf
eat
ureembedd
ing//Pr
oce
edi
ngso
f [
77] Schr
offF,Ka
len
ichenko D,Ph
ilb
inJ.Fa
c t:A un
eNe ifi
ed


heACM I
nte
rna
tiona
lCon
fer
enc
eon Mu
ltimed
ia.Or
lando, embedd
ingf
orf
acer
ecogn
iti
on andc
lus
ter
ing//Pr
oce
edi
ngs

USA,2014:675-678 o
fthe IEEE Con
fer
enc
e on Compu
ter Vi
sion and Pa
tte
rn


63] Al-Rf
ouR,Al
ainG,Almaha
iriA,e
ta ano:Apy
l.The thon Re
cogn
iton (
i CVPR).Bo
ston,USA,2015:815-823

78] Pa iO M,Veda
rkh ldiA,Z
iss
ermanA.De
epf
acer
ecogn
iti
on

r rkf
amewo orf
astc
ompu
tat
iono
fma
thema
tic
alexp
res
sions.
//Pr
oce
edi
ngs o
fthe Br
iti
sh Ma
chi
ne Vi
sion Con
fer
enc

a v:
rXi 02688v1,2016
1605.

BMVC2015).Swans
ea,Eng
land,2015:1-12

64] Bahr
ampourS,Ramakr
ishnan N,Scho
ttL,e
tal.Compa
ra-

79] Chang L
iang,Deng Xi ng,Zhou Mi
ao-Mi ng-Quan,e
tal.

ives
tudy o
f de
ep l
ear
ning s
oftwa
ref
ramewo
rks.a v:
rXi
Convo
lut
iona
lneur
alne
two
rksi
nimageunde
rst
and
ing.Ac
ta
06435v3,2016
1511.
Au
toma
tic
aSi
nia,2016,42(
c 9):1300-1312(
inCh
ine
se)

65] Sz
egedy C,L
i i,J
u We i ng,e
a Yang-Qi tal.Go
ing de
epe

(常亮,邓小明,周明全等 .图像理解中的卷积神经网 络 .自
wi
thc
onvo
lut
i //Pr
ons oce
edi
ngso
ftheIEEE Con
fer
enc
eon
动化学报,2016,42(
9):1300-1312)
Compu
terVi
sionandPa
tte
rnRe
cogn
iton (
i CVPR).Bo
ston,

80] Abde
l-Hami
dOs
sama,Mohamed Abde ahman,J
l-r i i,
ang Hu
USA,2015:1-9

tal.App
lyi
ng c
onvo
lut
iona
lneur
alne
two
rksc
onc
ept
sto

66] S
imonyan K,Z
iss
erman A.Ve
ryde
epc
onvo
lut
iona
lne
two
rks
hybr
id NN-HMM mode
lfo
rspe
echr
ecogn
iton//Pr
i oce
edi
ngs

orl
arge-s
cal
eimager
ecogn
iti
on.a v:
rXi 1556v6,2014
1409.

ftheIEEEI
nte
rna
tiona
lCon
fer
enc
eon Ac
ous
tis,Spe
c ech

67] He Ka ng, Zhang Xi
i-Mi ang-Yu, Ren Shao-Qi
ng,e
tal.
and S
igna
l Pr
oce
ssng (
i ICASSP). Kyo
to,J
apan,2012:
Spa
tia r
lpyami
d poo
lingi
n de
epc
onvo
lut
iona
lne
two
rksf
or
4277-4280

isua
lre
cogn
iti
on.IEEE Tr
ans
act
ions on Pa
tte
rn Ana
lys
is

81] Abde
l-Hami
dOs
sama,Mohamed Abde ahman,J
l-r i i,
ang Hu
and Ma
chi
neI
nte
ll
i e,2015,37(
genc 9):1904-1915

tal.Convo
lut
iona
lneur
alne
two
rksf
orspe
echr
ecogn
iti
on.

68] I
ofeS,Sz
f egedy C.Ba
tchno
rma
liz
aton:Ac
i cel
era
tingde
ep
IEEE/ACM Tr
ans
act
ionson Aud
io,Spe
ech,and Language
ne
two
rkt
rai
ningbyr
educ
ingi
nte
rna
lcova
ria
tesh
ift.a v:
rXi
Pr
oce
ssng,2014,22(
i 10):1533-1545
03167,2015
1502.

82] Thoma
sS,Ganapa
thyS,SaonG,e
tal.Ana
lyz
ingc
onvo
lu-

69] HeKa ng,ZhangXi
i-Mi ang-Yu,RenShao-Qi
ng,e
tal.De
ep

iona
l neur
al ne
two
rks f
or spe
ech a
cti
vit
y de
tec
tion i


esi
dua
lle
arn
ingf
orimager
ecogn
iton//Pr
i oce
edi
ngso
fthe //Pr
mi
sma
tched a
cous
ticc
ond
iti
ons oce
edi
ngs o
fthe IEEE
IEEE Con
fer
enc
eonCompu
terVi
sionandPa
tte
rnRe
cogn
iti
on.

nte
rna
tiona
l Con
fer
enc
e on Ac
ous
tis,Spe
c ech and S
igna

s,USA,2016:770-778
sVega
La
Pr
oce
ssng (
i ICASSP).F
lor e,I
enc tay,2014:2519-2523


70] Wang Xi
ao-Gang. De
ep l
ear
ning i
n image r
ecogn
iti
on. [
83] Hi
nton G,DengL
i,Yu Dong,e
tal.De
epneur
alne
two
rks
Commun
ica
tionso
ftheCCF,2015,11(
8):15-23(
inCh
ine
se)

ora
cous
ticmode
lingi
nspe
echr
ecogn
iton:Thesha
i redv
iews
(王晓刚 .图 像 识 别 中 的 深 度 学 习 .中 国 计 算 机 学 会 通 讯,
ff
o ourr
ese
archg
roups.IEEE S
igna
lPr
oce
ssi
ng Maga
zine,
2015,11(
8):15-23) 2012,29(
6):82-97
71] Mi
[ shk
inD,Se
rgi
evsk
iyN,Ma
tasJ.Sys
tema
ticeva
lua
tiono
f [
84] HuangJu ng,L
i-Ti iJn-Yu,Gong Yi-Fan.An ana
i lys
iso

CNNadvanc
esont
heimageNe
t.a v:
rXi 02228v2,2016
1606. c
onvo
lut
iona
l neur
al ne
two
rks f
or spe
ech r
ecogn
iton//


72] T
ai n Y,Ya
gma ng M,Ra
nza
to M A,e
tal.De
epFa
ce:C
los
ing Pr
oce
edi
ngso
ftheIEEEI
nte
rna
tion
alCon
fer
enc
eon Ac
ous
tis,


he gap t
o human-l
eve
l pe
rfo
rmanc
einf
ace ve
rif
ica
tion// Spe
echandS
igna
lPr
oce
ssng (
i ICASSP).Br
isbane,Aus
tra
lia,
Pr
oce
edi
ngso
ftheIEEE Con
fer
enc
eonCompu
terVi
sionand 2015:4989-4993
Pa
tte
rn Re
cogn
iton (CVPR ). Co
i lumbus, USA, 2014: [
85] DongJun,ZhangJ
i i,Zhu Hong-Ha
a-We i,e
tal.We
arab
le
1701-1708 ECG mon
ito
rs and i
tsr
emo
ted
iagno
siss
erv
icep
lat
form.

73] Sun Yi,WangXi
ao-Gang,TangXi
ao-Ou.De
epl
ear
ningf
ace IEEEI
nte
ll
igen
tSys
tems,2012,27(
6):36-43

epr
esen
tat
ionf
rom p
red
ict
ing10000c
las
se//Pr
s oce
edi
ngso
f [
86] Kad
iI,I
driA,Fe
rnande
z-Al
emanJL.Knowl
edged
isc
ove
ry

heIEEECon
fer
enc
eonCompu
terVi
sionandPa
tte
rnRe
cog- i
nca
rdi
ology:A s
yst
ema
ticl
ite
rat
urer
evi
ew.I
nte
rna
tiona


iti
on.Co
lumbus,USA,2014:1891-1898 J
our
nalo
f Med
ica
lIn
forma
tis,2017,97:12-32

1250 计 算 机 学 报 2017 年


87] Zhu Hong-Ha
i.Ke
yAl
gor
ithmsonCompu
ter-Ai
dedEl
ect
ro- [
97] Cu i-Cheng,Chen Wen-L
iZh in, Chen Yi-Xi
n. Mu
lti-s
cal


ard
iog
ram Ana
lys
isandDeve
lopmen
tofRemo
te Mu
lti-S
igns c
onvo
lut
iona
lneur
alne
two
rksf
ort
imes
eri
esc
las
sif
ica
tion.
Mon
ito
ringSys
tem [
Ph.
D.d
iss
ert
aton].SuzhouI
i nst
itu
teo
f a v:
rXi 06995,2016
1603.
Nano-t
echand Nano-b
ion
ics,Ch
ine
se Ac
ademyo
fSc
ienc
es, [
98] Zheng Yi,L
iu Qi,Chen En-Hong,e
tal.Convo
lut
iona

Suzhou,2013(
inCh
ine
se) non
line
arne
ighbourhoodc
omponen
tsana
lys
isf
ort
imes
eri
es
(朱洪海 .心电图自动识 别 的 关 键 算 法 及 多 体 征 监 护 系 统 研 c
las
sif
ica
tion//Pr
oce
edi
ngso
fthe19t
hPa
cif
ic-As
iaCon
fer
enc

制[博士学位论文].中国科学院苏州纳米技术与纳米仿生 研 on Knowl
edge Di
scove
ry and Da
ta Mi
ning.Ho Ch nh,
i Mi
究所,苏州,2013) Vi
etnam,2015:534-546

88] ZhangJ
i i,L
a-We i a,Dong Jun.CCDD:An enhanc
u Xi ed [
99] RedmonJ,Di
vva
laS,Gi
rsh
ickR,e
tal.Youon
lyl e:
ookonc

tanda
rd ECG da
taba
se wi
thi
ts managemen
tandanno
tat
ion Un
ifi
ed,r
eal
-time ob
jec
t de
tec
tion.a v:1506.02640v5,
rXi

ool
s.I
nte
rna
tiona
lJour
nal on Ar
tic
leI
nte
ll
igenc
e Too
ls, 2015
2012,21(
5):1-26 [
100] Ren Shao-Qi
ng, He Ka ng,Gi
i-Mi rsh
ick R,e
tal.Fa
ste


89] Fayya
z-u
l-Af
sar Ami
r Mi s, Muhammad Ar
nha if. Robus
t R-CNN:Towa
rdsr
eal
-timeob
jec
tde
tec
tionw
ithr
egi
onp
ropo
sal

lec
tro
car
diog
ram be
atc
las
sif
ica
tion us
ing d
isc
ret
e wave
let ne
two
rks.IEEE Tr
ans
act
ions on Pa
tte
rn Ana
lys
is and

rans
form.Phys
iol
ogi
cal Me
asur t,2008,29(
emen 5):555- Ma
chi
neI
nte
ll
i e,2016,do
genc i:10.
1109/TPAMI.2016.
570 2577031

90] Ma
rtsRJ,Chakr
i abo
rtyC,Ray A K.Atwo-s
tage me
cha- [
101] Gi
rsh
ick R.Fa
st R-CNN//Pr
oce
edi
ngs o
fthe 2015IEEE

ismf
orr
egi
str
ati
onandc
las
sif
ica
tiono
fECGus
ingGaus
sian I
nte
rna
tiona
l Con
fer
enc
e on Compu
ter Vi
sion. San
tiago,
mi
xtur
emode
l.Pa
tte
rn Re
cogn
iton,2009,42(
i 11):2979- Ch
ile,2015:1440-1448
2988 [
102] L
i i,Angue
u We lov D,Erhan D,e
tal.SSD:S
ing
lesho


91] Haka
cova N,Tr
aga
rdh-J
ohans
son E, Wagne
r G S,e
tal. mu
ltbox de
i tec
to//Pr
r oce
edi
ngs o
f t
he 14
th Eur
ope
an
Compu
ter-ba
sedrhy
thm d
iagno
sisandi
tspo
ssi
blei
nfl
uenc
e Con
fer
enc
eon Compu
ter Vi
sion.Ams
tedam,Ne
r the
rlands,
onnonexpe
rte
lec
tro
car
diog
ram r
eade
rs.J
our
nalo
fEl
ect
ro- 2016:21-37

ard
ioogy,2012,45(
l 1):18-22 [
103] XuJ
i ng,WangPeng,Ti
a-Mi anGuan-Hua,e
tal.Sho
rtt
ext

92] Vog
lT P,Mang
isJK,Ri
glrA K,e
e tal.Ac
cel
era
tingt
he c
lus
ter
ingv
iac
onvo
lut
iona
lneur
alne
two //Pr
rks oce
edi
ngso


onve
rgenc
eoft
he ba
ck-p
ropaga
tion me
thod. B
iol
ogi
cal t r,USA,2015:62-69
heNAACL-HLT2015.Denve
Cybe
rne
tis,1988,59(
c 4):257-263 [
104] Gao Jun-Yu, Yang Xi
ao-Shan, Zhang Ti
an-Zhu,e
tal.

93] Wang L
i-P
ing.S
tudy on App
roa
ch o
f ECG C
las
sif
ica
tion tv
Robus i
sua
ltr
ack
ing me
thod v
ia de
epl
ear
ning.Ch
ine
se
wi
th Doma
i edge[
n Knowl Ph.D.d
iss
ert
aton].Ea
i st Ch
ina J
our
nalo
fCompu
tes,2016,39(
r 7):1419-1434(
inCh
ine
se)
No
rma
lUn
ive
rsi
ty,Shangha
i,2012(
inCh
ine
se) (高君宇,杨小汕,张天柱等 .基于深度学习的鲁棒性视觉跟
(王丽苹 .融合领域知识的心电图分类方法研究[博士学位 论 踪方法 .计算机学报,2016,39(
7):1419-1432)
文].华东师范大学,上海,2012) [
105] L
iHong,L
iuFang,YangShu-Yuan,e
tal.Remo
tes
ens
ing
94] Zhou Fe
[ i-Yan,J
inL
in-Peng,Dong Jun.PVC r
ecogn
iti
on imagef
usi
onba
sedonde
epsuppo
rtva
luel
ear
ningne
two
rks.

lgo
rihm ba
t sed on ens
emb
lel
ear
ning. Ac
ta El
ect
ron
ica Ch
ine
seJ
our
nalo
fCompu
tes,2016,39(
r 8):1583-1596(
in

ini
ca,2017,45(
2):501-507(
inCh
ine
se) Ch
ine
se)
(周飞燕,金林 鹏,董 军 .基 于 集 成 学 习 的 室 性 早 博 识 别 方 (李 红 ,刘 芳 ,杨 淑 媛 等 .基 于 深 度 支 撑 值 学 习 网 络 的 遥 感
法 .电子学报,2017,45(
2):501-507) 图 像 融 合 .计 算 机 学 报 ,2016,39(
8):1583-1596)

95] Zheng Yi, L
iu Qi, Chen En-Hong,e
tal. Time s
eri
es [
106] Hu Xi
ao-J
uan. The Re
sea
rch on S
igna
l Pe
rcep
tion and

las
sif
ica
tionus
ing mu
lti-channe
lsde
epc
onvo
lut
iona
lneur
al Compu
terAi
ded Re
cogn
iti
on o
f Tr
adi
tiona
lCh
ine
se Me
dic
ine
ne
two //Pr
rks oce
edi
ngso
fthe15
thI
nte
rna
tiona
lCon
fer
enc
e Pu
lseD
iagno
sis [Ph.D.d
iss
ert
aton].Ea
i st Ch
ina No
rma

on Web-Age I
nfo
rma
ti t (WAIM). Ma
on Managemen cau, Un
ive
rsi
ty,Shangha
i,2013(
inCh
ine
se)
Ch
ina,2014:298-310 (胡 晓 娟 .中 医 脉 诊 中 医 脉 诊 信 号 感 知 与 计 算 机 辅 助 识 别

96] Zheng Yi,L
iu Qi,Chen En-Hong,e
tal.Exp
loi
ting mu
lti- 研 究[博 士 学 位 论 文].华 东 师 范 大 学 ,上 海 ,2013)
channe
lsde
epc
onvo
lut
iona
lneur
alne
two
rksf
or mu
lti
var
iat
e [
107] GuoYan-Mi
ng,L
iuYu,Ar
dOe
rlemans,e
tal.De
epl
ear
ning

ime s
eri
esc
las
sif
ica
tion.Fr
ont
ier
sof Compu
ter Sc
i e,
enc f
orv
isua
lunde
rst
and
ing:Ar
evi
ew.Neur
ocompu
ting,2016,
2015,10(
1):96-112 187(
Spe
cia
lIsue):27-48

i-Yan, bo
ZHOU Fe r n 1986,
ni J
IN L
in-Peng,bo
r n1984,Ph.
ni D.Hi
s ma
inr
ese
arch
Ph.
D.c
and
ida
te. He
r ma
inr
ese
arch i
nte
resti
sma chi
nel
ear
ning.

nte
res
tisc
ompu
ter-a
ided d
iagno
siso
f ,
DONG Jun bo
rni n 1964,Ph.
D.,p
rof
ess
or,Ph.
D.

ard
iova
scu
lard
ise
ase
s. supe
rvi
sor.Hi
s ma
inr
ese
archi
nte
res
tsa
rea
rti
fic
iali
nte
ll
i-
genc
eandi
tsapp
lic
ati
onsi
n he
alt
h mon
ito
randt
rad
iti
ona

cu
ltu
re.
6期 周飞燕等:卷积神经网络研究综述 1251

Ba
ckg
round
Shal
lowarchi
tectu
ressuchasGaussi
an mi
xture mode
ls, tha
to f
standardful
lyconnec
ted neu
ralne
tworks.Inrecent
suppor
tve c
tor ma
chine ,
sl og
ist
icreg
ress
ionands oonhave year
sc, onvo
lut
iona
lneura
lnetworkhasmademajo
radvance

beenshowne f
fect
iveins o
lvi
ng manysimpl
ep rob
lems,bu t i
npr
a c
tic
a lapp
lic
ati
ons.

hei
rlimi
ted mode
li hepowe
ngandt roff
eat
urer
epr
esen
ta- Current
l ,
y card
iova
scu
lard
ise
asei
soneo
fthede
adl
ies


ions may c
aus
edi
ffi
cul
tie
s when de
ali
ng wi
thc
omp
lic
ated d
ise
assf
e o
rhumanbe
ings.ECGi
sve
ryimpo
rtan
tfo
rca
rdi
o-

igna
landi
nfo
rma
tion t
asks.De
ep l
ear
ning wi
th mu
lti
ple va
scu
lard
ise
ase
smon
ito
randd
iagno
sis.Ou
rgr
oupha
sbe
en

eve
lso
frep
res
ent
ati
onsi
sar
api
dl r
ygowi
ngf
iel
dofma
chi
ne wo
rkngonc
i ompu
ter-a
ided ECG ana
lys
is me
thodsf
or mo
re
le
ar n
ing.Deepl
earni
ng al
lev
iat
estheopt
imiza
tion d
iff
icu
lty t
hant enyea
rs.Wha tis more wehavetri
ed manyd i
ffer
ent
using thre
e techn
ique :
s be t
ter pa
ramet
er i n
iti
ali
zat
ion mach
inelea
rning me
thodsinc
ludingsuppo
rtvector mach
ine,

echni
ques,be
tte
rle
ar n
ingal
gor
ithmssuchasstocha
sti
cBP h
idden Ma
r l,r
kovmode ule
sin
fer
enc
eeta
l.i
nca
rdi
ova
scu
lar

lgor
ithms,andalargernumbe
ro fhi
dden un
its wh
ichcan d
ise
asss
e t
udi
essucha
sno
rma
l/abno
rma
lECGc
las
sif
ica
tion,
imp
rovet
he mode
ling powe
r.I
tha
sso
lveds r
ome pob
lems a
tri
alf
ibr
il
lat
i r
onandpema
tur
even
tri
cul
arc
ont
rac
tionc
las
si-

hathaver
esi
stedt
hebe
sta
ttemp
tso
fthesha
llow a
rch
ite
c- f
ica
tionands
oon.Thr
oughas
eri
eso
fexpe
rimen
ts,wehave

uresfrmanyye
o a
rs.Asoneo ft
hemostrep
resen
tat
ivedeep f
oundt
hatt
heme
thodc
omb
ingc
onvo
lut
iona
lneu
ralne
two
rk

ear
ning mode
ls,convo
lut
iona
lneur
alnetworkisatt
rac
ting andr
ule
sin
fer
enc
eisbe
tte
rfo
rre
cogn
iti
ono
fthe
sec
ard
io-
theat
tenti
ono f manyacademicres
ear
chers.Becauseoft
he va
scu
lard
ise
ass,andi
e tcanga
inh
ighe
rac
cur
acyr
ate
sthan

o c
alconnect
i ,
ons shar
ed weight ,
s pooli
ng ope
rationi
nthe omeo
s the
rtr
adi
tiona
l ma
chi
nel
ear
ning me
thods.Now we
convol
uti
ona
lneuralnetwo
rk,ithasfewerparamete
rstobe haveus
edt
hec
onvo
lut
iona
lneu
ralne
two
rk mode
lfo
rsome

r a
ined.There
fo ,
e i
r tis mo
re app
lic
abl
et o opt
imizet
han c
ard
iova
scu
lard
ise
ase
scl
ass
ifi
cat
iononou
rcl
oudp
lat
form.

You might also like