Professional Documents
Culture Documents
用于车辆识别的深度学习模型的优化 PDF
用于车辆识别的深度学习模型的优化 PDF
doi :10.19638/j.issn1671-1114.20190113
用于车辆识别的深度学习模型的优化
刘泽康,孙 华 志 ,姜 丽 芬 ,马春梅
( 天 津 师 范 大 学 计 算 机 与 信 息 工 程 学 院 ,天 津 3 0 0 3 8 7 )
摘 要 :在 车 辆 识 别 模 型 中 ,为 减 小 深 层 卷 积 神 经 网 络 的 计 算 开 销 ,对 网 络 模 型 参 数 进 行 优 化 ,基 于 实 验 确 定 了 模 型
最 优 参 数 ,从 而 以 较 少 的 网 络 层 数 获 得 较 高 的 车 辆 识 别 精 度 . 针 对 真 实 拍 摄 场 景 车 辆 图 像 尺 寸 较 小 的 问 题 ,使 用 复 制
边 界 的 方 法 减 小 卷 积 过 程 中 的 像 素 损 失 ,以 提 高 识 别 精 度 . 基 于 车 辆 公 开 数 据 集 I m a g e N e t 和 P K U - V D 进 行 实 验 ,并
与 现 有 的 高 精 度 模 型 比 较 ,结 果 表 明 ,优 化 后 的 卷 积 神 经 网 络 的 车 辆 识 别 精 度 高 达 9 9 . 7 4 % ,优 于 C N N + A d a b o o s t 的
9 7 . 0 2 % 和 GoogLeNet-lite 的 9 9.35%.
关 键 词 :车 辆 识 别 ;卷 积 神 经 网 络 ;参 数 优 化
中 图 分 类 号 :T P 3 9 1 文 献 标 志 码 :A 文 章 编 号 :1 6 7 1 - 1 1 1 4 ( 2 0 1 9 ) 0 1 - 0 0 7 1 - 0 5
Abstract :For decreasing computing cost of deep convolutional neural network in vehicle recognition m o d e l , the parameters
of the mo del are optimized through experiments, so as to achieve a higher vehicle recognition rate with fewer network layers.
In view of the problem that the image size of the vehicle in the real shooting scene is small, the m e t h o d of copying boundary
of image is used for minimizing the loss of pixels in the convolution process a n d improving the correct rate. Experiments are
carried out based on the ImageNet a n d P K U - V D vehicle public datasets, an d this m e t h o d is c o m p a r e d with existing models
with high accuracies. T h e results show that the optimized three-layer convolutional neural network has a vehicle recognition
随 着 日 常 生 活 中 汽 车 数 量 的 增 多 ,单 纯 依 靠 人 基 础 上 ,交 替 使 用 有 监 督 和 无 监 督 过 程 训 练 ,有 效 解
工 识 别 已 经 无 法 满 足 需 求 ,所 以 需 要 利 用 计 算 机 识 别 决 了 梯 度 消 失 问 题 . 文 献 [9]将 提 取 的 2 5 种 基 线 特 征
代 替 人 工 .传 统 的 车 辆 识 别 方 法 一 般 可 以 分 为 3 类 : 和 局 部 纹 理 特 征 融 合 ,进 行 栈 式 自 编 码 器 训 练 ,简 化
1 2
帧 间 差 分 法 []、背 景 差 分 法 []以 及 光 流 法 [3].传 统 方 法 虽 了 网 络 结 构 ,提 高 了 识 别 精 度 . 卷 积 神 经 网 络 ( CNN)
然 针 对 不 同 问 题 提 出 了 有 效 的 解 决 办 法 ,但 是 由 于 模 作 为 深 度 学 习 理 论 的 一 个 重 要 分 支 ,在 车 辆 识 别 方
型 结 构 简 单 、训 练 不 充 分 等 问 题 ,依 然 存 在 实 时 检 测 面 有 着 突 出 的 贡 献 . 文 献 [10]在 C N N 的 基 础 上 使 用
性 差 或 过 于 依 赖 外 部 环 境 等 缺 陷 [4-6]. 近 些 年 用 于 车 辆 Adaboost算 法 训 练 多 个 不 同 的 弱 分 类 器 ,再 将 弱 分 类
识 别 的 深 度 学 习 理 论 迅 速 发 展 . 文 献 [7]结 合 手 工 特 征 器 联 合 起 来 进 行 车 辆 识 别 . 文 献 [11]通 过 对 遮 挡 物 进
和 深 度 玻 尔 兹 曼 机 方 法 ,将 方 向 梯 度 直 方 图 等 3 种 手 行 处 理 ,再 利 用 卷 积 神 经 网 络 ,提 高 了 有 物 体 遮 挡 的
工 设 计 的 特 征 作 为 输 人 ,并 通 过 学 习 融 合 各 特 征 的 优 汽 车 的 识 别 精 度 . 文 献 [12]将 基 于 卷 积 神 经 网 络 的 车
点 ,以 提 高 识 别 精 度 . 文 献 [8]在 深 度 置 信 网 络 结 构 的 辆 检 测 用 于 正 面 碰 撞 预 警 .文 献 [13]通 过 反 复 堆 叠 3 3 x
收稿日期:2018-05-24
基 金 项 目 :国 家 自 然 科 学 基 金 资 助 项 目 (6 1 7 0 2 3 7 0 ); 天 津 市 国 际 科 技 合 作 资 助 项 目 (14RCGFGX00847 ) ; 天津市自然科学基金资助项目
(17JCYBJC16400,18JCYBJC85900);天津市自然科学青年基金资助项目(18JCQNJC70200);天津市科技计划资助项目(17ZLZXZF00530);
天津师范大学 131 三层次人选资助项目( 043/135305QS20);天津师范大学博士基金资助项目(043/135202XB1615, 043/135202XB1705).
第一 作 者 :刘泽康(995— ),男 ,硕士研究生 .
通信作者:马春梅(985— ),女 ,讲 师 ,主要从事移动计算、 群智感知、 机器学习和智能交通方面的研究 .E-mail: mcmxhd@163.com.
• 72 • 天 津 师 范 大 学 学 报 (自 然 科 学 版 ) 2019年 1 月
的小型卷积核和2x 2 的最大池化层构建了 16层的卷 I :64 x 64 C1 :64 x 64 S2 :32x 32 C3 :32x 32 S4 :16x 16 Feature vector
积神经网络(VGG16).文献[14]通过使用1 x 1、
3 x 3、
5x 5
的卷积核尺寸对输入数据进行卷积,再 将 3 个卷积的
输出结果组合起来构成模型(GoogLeNet).虽然以上万
法有较高的识别精度,但其对于深度学习网络的改造 图 1 卷积神经网络搭建过程
成 ,分别为输入层、卷积层、池化层、全连接层和 2
参数.在传统卷积神经网络中,图像通过卷积层后尺 0 丨
x 丨彡#
寸会减小.为尽量保留图像中的像素点,卷积层采用 其中:Ho( i , j )为原像素点进行纵向移动后的像素点,
保留原边界像素的方法,即在图像边界补零,使得图 LanczosN(x)为滤波函数.图2 为 大 小 4 x 4 范围内进
像卷积后输出的图像尺寸与原图像尺寸保持一致.池 行 的 Lanczos算法缩放示意图.
化层选用最大池化,最大池化的公式为
xi = g (/3i down(xi_1 ) + b) (2) (i,
j) x
其 中 :xi 为池化层的输出;( • )为次抽样层的激活函 iy
( u ,v)
数 ,down( •)为次抽样函数, 烊为池化层权重,bi 为池
化层的偏置函数.池化层选择下采样框中像素值最大
的像素点进行下采样,提取主要特征,进而简化网络 Ph〇 Ph1 Ph2 P h3
复杂度.全连接层连接所有特征图共同做出决策,得 图 2 预处理示意图
部分的图像为非车辆图像.训练集和测试集中样本具
体标记见表1.
% i
表 1 样本标签统计
/ co m n o o y
1 0 0 .0 由图8 可见,训练次数较大时,卷积核大小为4 x
4 的网络的识别精度整体高于其他3 种卷积核的网
9
,
%/7{omnooy
9. 络.这是由于经过长时间的训练,随着网络层数的加
9
9.
9. 深 ,特征图尺寸变小,较大尺寸的卷积核会造成特征
9
信息的丢失,而较小尺寸的卷积核又不足以充分提取
9
特征信息.综合考虑收敛速度和识别精度,第 2 层卷
99.0 积网络最佳的卷积核尺寸为4 x 4.
90 91 92 93 94 95 96 97 98 99 100
Epochs 固定第1 层卷积网络卷积核大小为5 x 5, 第 2层
1 层卷积网络实验部分结果
图 6 第 卷积网络卷积核大小为4 x 4 , 第 3 层卷积网络分别
Fig. 6 Partial experiment results of the first 使 用 2 x 2、
3 x 3、
4 x 4、
5 x 5 大小的卷积核进行实验,
convolutional layer 结果见图9.
下 面 固 定 第 1 层卷积网络卷积核大小为5 x 5,
固定第3 层卷积核大小为默认的3 x 3 , 第 2 层卷积
网络分别使用2 x 2、
3 x 3、
4 x 4、
5 x 5 大小的卷积核
进行实验,结果见图7.
0 5 0 5 0 5 0 5 0
10
9
9
8
%/7{omnooy
8
7
7
Epochs
6
6
9 第 3 层卷积网络实验结果
图
Fig. 9 Experiment results of the third convolutional layer
20 40 60 80 100
Epochs 由图9 可见,各尺寸卷积核的网络收敛速度大致
图 7 第 2 层卷积网络实验结果 相 同 ,甚至使用较小卷积核(2x 2)的网络收敛速度要
Fig. 7 Experim ent results of the second convolutional layer 稍快于其他较大卷积核的网络.这是由于深层特征图
由图7 可以看出,卷积核大小为5 x 5 的神经网 尺寸较小,较大的卷积核不能充分提取车辆的细节特
络收敛速度快于其他3 种尺寸卷积核的网络.这是由 征 ,导致其收敛速度变慢.截取训练次数为9 0 至 100
于在训练次数较少的情况下,尺寸较大的卷积核对于 的精度识别曲线,见 图 10.
图像像素点的计算更充分,可以使得浅层特征得到充 1 0 0 .0
分提取,所以在图像像素损失不大的情况下可以更快
9
9.
达到较高的精度.但是,随着训练次数的增加,各尺
%/7{omnooy
9.
9
9.
寸卷积核网络的识别精度趋近相同.同样截取训练次 9.
数 为 9 0 至 100的精度识别曲线,见 图 8.
9
1 0 0 .0
9
8
9
.
99.0
9
%/homnooy
90 91 92 93 94 95 96 97 98 99 100
Epochs
图 1 0 第 3 层卷积网络实验部分结果
Fig. 10 Partial experiment results of the third
convolutional layer
99.0
90 91 92 93 94 95 96 97 98 99 100 由 图 1 0 结果可以看出,训练次数较大时,卷积
Epochs
8 第 2 层卷积网络实验部分结果 图 核 大 小 为 3 x 3 的网络效果最好.这是由于深层特征
Fig. 8 Partial experiment results of the second 图尺寸较小,较大的卷积核会造成特征细节的丢失,
convolutional layer 较小的卷积核又不足以提取车辆特征.因此第3 层卷
第 39卷 第 1 期 刘 泽 康 ,等 :用 于 车 辆 识 别 的 深 度 学 习 模 型 的 优 化 •75 •
积网络最佳的卷积核尺寸为3 x 3. 场景中车辆图像较小的问题,使用复制边缘像素进行
根据以上实验结果,分别选取3 层卷积网络卷积 填充的方法,减小了卷积造成信息丢失的影响,采取
核尺寸为5 x 5、
4 x 4、
3 x 3 , 搭建卷积神经网络模型 控制变量的方法对网络参数设置进行了优化实验,通
并进行训练.将车辆图像输入训练好的卷积神经网络 过实验找到了各网络层的最优参数设置,并与目前的
中,车辆图像经过(卷积层+池化层)处 理 ,得到特征 高精度方法进行实验对比,结果表明本文方法的识别
提取图,部分特征提取图见图11. 性能较好.
参考文献:
[1] COLLINS R T , LIPTON A J , KANADE T. Introduction to the special
Input section on video surveillance[J]. IEEE Trans on Pattern Analysis and
Machine Intelligence,2000, 22(22 ):745-746.
[2] LONG W , YANG Y H. Stationary background generation :An alterna
tive to the difference of two images[J]. Pattern Recognition,1990, 23
(12 ):1351-1359.
C1 [3 ] 向 川 平 . 基 于 光 流 场 的 视 频 运 动 检 测 研 究 [D]. 成 都 :西 华 大 学 ,
2011.
XIANG C P. Research on Optical Flow and Its Application on Video
C2 Motion Detection[D]. Chengdu :Xihua University, 201 ( i n Chinese).
[4] HU W , BAI L. A new approach for vehicle color recognition based on
specular-free image[C]//Proceedings of SPIE. The International Society
C3 for Optical Engineering. IEEE ,2013.
图 1 1 特征提取图 [5] BEHLEY J , STEINHAGE V , CREMERS A B. Laser-based segment
Fig. 11 Feature extraction map classification using a mixture of bag-of-words[C]//International Confer
ence on Intelligent Robots and Systems. IEEE ,2013.
为验证本文方法的有效性,选取车辆识别精度较 [6 ] 徐骏骅 . 基于边缘检测与模式识别的车脸识别算法 [J]. 控 制 工 程 ,
高的 CNN+Adaboost[10]、
VGG16[13]以及 GoogLeNet-lite[14] 2018, 25(2 ):357-361.
与本文方法进行对比实验,实验数据均采用第3 节构 XU J H. Car face recognition algorithm based on edge detection and
pattern recognition[J]. Control Engineering of China ,2018 ,25(2 ):
建的数据集,对比结果如表2 所示. 357-361(n Chinese).
表 2 不同算法实验结果对比 [7] HU A Q , HONG L I , ZHANG F , et al. Deep Boltzmann Machines
Tab. 2 Comparison of different algorithms based Vehicle Recognition[C]//Control and Decision Conference. IEEE ,
2014.
Method Accuracy/% F-measure/% Time/ms [8 ] SHI T , ZHANG C , LI F , et al. Application of alternating deep belief
Method of this paper 99.74 99.70 I% network in image classification[C]//Control and Decision Conference.
CNN+Adaboost 97.02 99.51 40 IEEE ,2016.
[ 9 ] 康 妙 ,计 科 峰 ,冷 祥 光 ,等 . 基于栈式自编码器特征融合的 SA R 图
VGG16 99.82 99.78 091
像车辆目标识别 [J]. 雷 达学报,2017, 6 (2 ): 167-176.
GoogLeNet-lite 99.35 99.36 133 KANG M, JI K F , LENG X G , et al. SAR target recognition with fea
由表2 可以看出,本文优化后模型的最终识别精 ture fusion based on stacked autoencoder[J]. Journal of Radars ,2017,
6 (2 ):167-176(in Chinese).
度可以达到99.74°%,高 于 CNN+Adaboost的 97.02°%和 [10] SONG X , RUI T , ZHA Z , et al. The Adaboost algorithm for vehicle
GoogLeNet的 99.35%.另外,优化后模型的 F-measure detection based on CNN features[C]//International Conference on Inter
net Multimedia Computing and Service. ACM ,2015.
达到 99.70%,也高于 CNN+Adaboost 的 99.51%和
[11] FEYZABADI S. Joint deep learning for car detection[J]. Computer Vi
GoogLeNet的 99.36%.由 于 VGG1 6 的模型结构复杂, sion and Pattern Recognition ,2014 ,arXiv :1412.7854.
一定程度上减小了卷积核大小对于模型识别的影响. [12] PYO J , BANG J , JEONG Y. Front collision warning based on vehicle
detection using CNN[C]//Soc Design Conference. IEEE ,2016.
所 以 ,VGG16模型的最终识别精度为99.82%,虽然
[13] SIMONYAN K , ZISSERMAN A. Very deep convolutional networks for
略高于本文优化后的模型,但是其识别时间远远大于 large-scale image recognition[J]. Computer Vision and Pattern Recogni
本文方法,而且本文方法的识别时间在4 种方法中是 tion ,2014, arXiv :1409.1556.
[14] SZEGEDY C, LIU W , JIA Y , et al. Going deeper with convolutions[C]
最优的.综合实验结果各指标,本文方法更适用于现 //IEEE Conference on Computer Vision and Pattern Recognition. IEEE
实场景的车辆检测. Computer Society ,2015.
[15] YAN K , TIAN Y , WANG Y , et al. Exploiting multi-grain ranking con
4 结语 straints for precisely searching visually-similar vehicles[C]//IEEE Inter
national Conference on Computer Vision. IEEE Computer Society,2017.
本文根据真实场景车辆大小进行建模,针对真实 (责 任 编 校 马 新 光 )