Download as pdf or txt
Download as pdf or txt
You are on page 1of 4

2018 年 12 月 1 日 现代电子技术 Dec.

2018
第 41 卷第 23 期 Modern Electronics Technique Vol. 41 No. 23
127
DOI:10.16652/j.issn.1004-373x.2018.23.027

基于深度学习的起重机吊运手势识别
汪 涛 1,张建德 2
(1. 南京医科大学 信息与网络中心,江苏 南京 210029;2. 南京工程学院 计算机工程学院,江苏 南京 211167)

摘 要:起重机工作环境嘈杂,指挥员的吊运手势在作业现场发挥着重要的作用,设计一个自动化吊运手势识别系统
非常必要。以深度学习算法中卷积神经网络为基础方法,构建由静态手势模块和动态手势模块组成的复合神经网络模型,
提取吊运手势的特征,最后对特征进行组合并识别。实验结果表明,该系统能够有效地识别吊运手势。
关键词:吊运手势;卷积神经网络;手势分割;深度学习;颜色空间;特征提取
中图分类号:TN99-34;TP391.41 文献标识码:A 文章编号:1004-373X(2018)23-0127-03

Crane ′ s lifting gestures recognition based on deep learning


WANG Tao1,ZHANG Jiande2
(1. Center of Information and Network,Nanjing Medical University,Nanjing 210029,China;
2. School of Computer Engineering,Nanjing Institute of Technology,Nanjing 211167,China)

Abstract:The crane ′ s working environment is very noisy,and the gesture of commander plays an important role in the job
site. Therefore,it is necessary to design an automatic lifting gesture recognition system. The convolution neural network in deep
learning algorithm is used as the basic method. The combined neural network model composed of dynamic gesture module and
static gesture module is constructed. The features of lifting gestures are extracted,combined and recognized. The experimental
results show that the system can recognize the lifting gesture effectively.
Keywords: lifting gesture; convolutional neural network; gesture segmentation; deep learning; color space; feature
extraction

CSRP;文献[4]提出一种基于手势主方向和类-Hausdorff
0 引 言
距离模板匹配的手势识别方法,通过构建直角坐标系提
起重机是现代化生产的重要设置装备部署,被广泛 取手势特征向量;文献[5]提出采用 Kinect 深度信息进行
应用于工场、矿山、口岸、车站、修建工地、电站等生产范 手势识别,对手部图像通过深度信息进行分割并去噪以
畴。由于起重机作业环境复杂,声音嘈杂,操作员视野 定位手位置,最后进行识别;文献[6]提出通过手的三维
受限等,需要现场指挥员予以手势指导。指挥员的吊运 坐标信息对手势轨迹进行特征提取并采用支持向量机
手势在整个起重机作业中,特别是在桥式起重机中发挥 进行分类识别。
着重要的作用。因此,设计一种能够自动化进行吊运手 但 是 在 起 重 机 适 用 的 场 合 ,指 挥 手 势 相 对 比 较 复
势识别系统非常有必要。 杂,通常需要两个手的配合。比如,预备动作要求手臂
手势是一种自然直观、易于学习的人机交互方式, 伸直,五指头自然分开,手心朝前。紧急停止,要求两小
同时基于视觉的手势识别也是一项难度较大、涉及领域 臂水平置于胸前,五指伸开,手心朝下,水平挥向两侧。
[1]
较广的研究内容 。目前关于手势识别的技术有:基于 在此场景下,手势识别存在难度,如何高效地对手势进
稀疏表示的手势识别方法 [2],提高了在手势偏转情况下 行识别成为本文的研究重点。
的识别率和识别速度;面向静态手势识别的边缘序列递 近几年,深度学习在计算机视觉领域取得了瞩目成
[3] [7-8]
归模型算法 ,从手势边缘序列角度出发提出一种基于 绩 ,其从人工神经网络的模型延伸发展而来,通过组
手 势 边 缘 轮 廓 递 归 图 的 CK - 1 距 离 的 手 势 识 别 算 法 合低层特征形成更加抽象的高层表示属性类别或特征,

收稿日期:2018-01-24 修回日期:2018-05-28
基金项目:江苏省自然科学基金青年基金项目(BK20150731);江苏省高校自然科学基金面上项目(15KJB520014)
Project Supported by the Young Scientists Fund of Natural Science Foundation of Jiangsu Province (BK20150731),the General Project of Natural
Science Foundation of Jiangsu Higher Education Institutions(15KJB520014)

万方数据
128 现代电子技术 2018 年第 41 卷

以发现数据的分布式特征表示,因此,本文考虑将深度 简单的预处理:预先将手势轮廓提取出来,将手势定义
学习应用于起重机吊运手势识别中。为了充分应用吊 为狭长型,然后将图像分割中的若干个实物区域进行轮
运 场 景 下 的 手 势 状 态 —— 初 始 静 态 手 势 、动 态 手 势 过 廓匹配,如果不符合手势轮廓,将其区域处理为背景色。
程,本文设计了一种动态手势轨迹静态化的方法,并且
对深度学习算法中的卷积神经网络进行扩充,设计了复
合神经网络模型,并将其应用于起重机吊运手势识别中。
图 1 手势提取图像
1 基于深度学习的吊运手势识别 Fig. 1 Gesture extraction image

吊运手势识别模型主要由获取图像、手势分割、特 1.3 手势特征提取和分类


征提取、手势识别四部分组成。 手势特征是手势分类的重要依据,目前最常用的特
获取图像主要是采集指挥员的指挥动作图像;手势 征描述有以下几类:依据几何特性区分手势的结构特征,
分割是从图像中把手部图像分割出来;特征提取是得到 描述图像边缘、角点的特征点检测、特征统计等,以上方
手部图像的特征属性;手势识别是应用分类器对手势进 法都需要人工进行特征提取,而卷积神经网络可以避免
行分类表达。 对图像的复杂前期预处理,直接输入原始图像,且能识别
1.1 手势图像获取 有变化的模式,容许图像畸变,鲁棒性强[10],因而已经被
本文通过摄像头对手势进行采集。由于起重机吊 广泛应用于图像分类、物体检测、姿态预估等多个领域。
运手势比较复杂,既有静态手势部分,又有动态手势部 1.3.1 卷积神经网络
分,且摄像头采集具有实时性,为了捕捉手势的轨迹,需 卷积神经网络是一个具备深度结构的神经网络,其
要设定采集序列初始时间和停止时间。设 t 0 为采集计 组成包括卷积层、降采样层、全连接层、输出层等多个层
数器初始时间,提示用户图像采集准备开始,请做好吊 次,可模拟人脑感知视觉信号的逐层处理机制,从而提
运手势;t 1 为动态手势采集时间开始,记录该吊运手势 取图像的多层次特征 [11]。卷积神经网络的重要特点是
的完整过程;t 2 为停止计数器,表示手势采集结束或者 局部感受野和权值共享。局部感受野是指人类在认识
手势消失在图像中,最终将形成关于手势的完整图像。 事物时都是先抓住局部特征,模拟算法中每一层神经元
因此在 t 0 时间段可以采集到手势的静态图像;在 t 1 和 t 2 只与上一层的某个局部区域相连,这种结构可以使每个
时间段可以采集到手势的动态图像集。 神经元提取到图像的初级特征,比如角点、端点、方向线
1.2 手势分割 段等,同时可以减少训练参数。权值共享也可以减少网
手势分割是将手部图像从复杂的背景中提取出来, 络需要训练的参数,是指不管神经元有多少个,每个神
是图像特征提取、手势分类的先行步骤,非常重要。手 经元都用同一个基准卷积核去处理图像。
势分割的方法主要有基于运动、基于肤色模型、基于轮 卷积层和降采样层是网络的核心。在卷积层中,前
廓、基于连通区域、基于立体图像等多种 [9]。本文采用基 一层的特征图与卷积核进行卷积操作,然后通过一个激
于 YCrCb 颜色空间的肤色模型方法,其核心思想是图像 活 函 数 输 出 得 到 这 一 层 的 特 征 图 ,并 形 成 下 一 层 的 输
中人体部位肤色与背景存在差异,从而将手势从复杂的 入。假设第 t 卷积层的第 j 个特征图表示为 X jt,则:

背景中分割出来,得到手势的黑白二值图像。其中 Y 代
表亮度,C r 与 C b 分别可以表示成蓝色分量、红色分量与
X jt = f (∑
i ∈ Zj
( X it - 1 × k ti, j ) + b tj
) (2)

式中:f 是激励函数;Z j 作为输入的特征图像;k ti, j 为可学


亮度的差值,代表的都是色度。
习的卷积核权值;b tj 是偏置量。
RGB 模式图像常常通过式(1)转化得到 YCrCb 彩色
卷积层后面通常有一个降采样层,图像的个数经过
空间再进行图像处理:
Y = 0.299R + 0.587G + 0.114B 此层不发生改变,但是可以降低特征图像的维度,使得
C r = -0.147R - 0.289G + 0.436B (1) 网络具有一定的位移、缩放和扭曲不变性。
C b = 0.615R - 0.515G - 0.100B 1.3.2 基于卷积神经网络的复合神经网络
而后通过调整 Y , C r , C b 的阈值,就可以将手势从图 由于吊运手势中既包括静态手势,又包括动态手势
像中分割出来,如图 1 所示。 轨迹图像。两部分图像的信息相对独立,因此本文设计
在部分场景中,手势会停留在头部位置,考虑到在 复合卷积神经网络模型,将静态手势和动态手势分开处
肤色提取时,会提取出脸部的部分,因此将采取部分做 理 ,并 进 行 特 征 提 取 和 手 势 识 别 ,其 基 本 结 构 由 静态

万方数据
第 23 期 汪 涛,等:基于深度学习的起重机吊运手势识别 129

手势特征提取模块、动态手势特征提取模块和合并输出 并 将 10 次 独 立 实 验 的 正 确 率 平 均 值 作 为 最 终 实 验 结
模块三部分组成。 果,图 3 列出了 5 种手势的识别率。
1)静态手势特征提取模块
该模块的作用是对静态手势的特征进行提取。其
输入以 t 0 时间段采集的图像为基础,进行手势分割后作
为特征提取对象。该模块中采用卷积神经网络作为基
础算法,通过多层的卷积操作、降采样操作,可以输出静
态手势的抽象特征。
2)动态手势特征提取模块
动态手势识别的关键就是识别手势在空间中运动
所形成的轨迹,如图 2 所示。采集 t 0 时刻手势图像的基
本 轮 廓 ,以 90° 为 一 个 间 隔 ,采 集 四 个 方 向 的 坐 标 点 图 3 每种手势的平均正确率结果
Fig. 3 Average accuracy of each gesture
( x i , y i ) ( i = 1, 2, 3, 4 ) ,并 计 算 手 势 的 中 心 坐 标 点 ( x t , y t ) =
复合神经网络模型的平均识别性能达到了 87.67%,
∑( x , y )
4

i i 4 。从 t 1 时间段开始,如果手势中心坐标点的
i=1 有效地识别了吊运指挥手势。
值没有变化,则动态手势部分的输入仍然是 t 0 时间段采
3 结 语
集的图像;如果手势中心坐标点的值发生了变化,则认为
本文以深度学习算法中的卷积神经网络为基础,实
是动态手势,记录其运动轨迹,取其在某个时间段内不同
现了一种复合神经网络模型,并将其应用于起重机吊运
帧的坐标点的集合。假设在 t 时刻,手势所处的初始位置
手势识别中,实验结果证明了该方法的有效性。深度学
为 ( x t , y t ),按照一定的速度进行采样,可形成手势轨迹
习 的 优 越 性 正 逐 步 被 发 掘 ,其 改 进 和 优 化 还 在 不 断 继
向量 G,因此动态手势已经转变为静态的运动轨迹图像。
续,后面将继续在网络结构的设置方案上进行研究,提
升手势识别的性能。
参 考 文 献
图 2 手势的运动轨迹
[1] WENG H L,ZHAN Y W. Vision -based hand gesture recogni-
Fig. 2 Motion trajectory of gesture
tion with multiple cues [J]. Computer engineering & science,
该模块的组成也包括卷积层和下采样层,用来对动 2012,34(2):123-127.
态手势的轨迹图像进行学习与特征提取。 [2] 宁亚楠,李定主,韩燮,等 . 基于稀疏表示的手势识别方法[J].
计算机工程与设计,2016,37(9):2548-2552.
3)合并输出模块
NING Yanan,LI Dingzhu,HAN Xie,et al. Gesture recogni-
合并输出模块由合并层和输出层组成,合并层将静
tion method based on sparse representation [J]. Computer engi-
态手势特征向量和动态手势轨迹特征向量合并在一起,
neering and design,2016,37(9):2548-2552.
与输出层的若干神经元进行全连接,该层神经元的输入 [3] 杨纪争,
冯筠, 等 . 面向静态手势识别的边缘序列递归模
卜起荣,
实际就是上层表述特征的各神经元的加权求和,输出对 2017,
型算法[J].计算机辅助设计与图形学学报, 29(4):
599-606.
手势类别的预测结果。 YANG Jizheng,FENG Jun,BU Qirong,et al. Gesture recogni-
tion algorithm based on contour sequence recursive model [J].
2 实 验
Journal of computer-aided design & computer graphics,2017,
本文采集了起重机吊运场景中的 5 种手势,分别是 29(4):599-606.
预备、要主钩、要副钩、吊钩上升、吊钩水平微微移动,共 [4] FENG Z Q,YANG X W,XU T,et al. Gesture recognition based
on combining gesture binary descriptor and Hausdorff-like dis-
采集样本数 1 400 个,选取其中 800 幅图像作为学习数
tance [J]. Acta electronica Sinica,2017,45(9):2281-2291.
据,其余 600 幅图像作为测试使用。每个数字图像的大
[5] 陶丽君,
李翠华, 等 . 基于 Kinect 传感器深度信息的动态
张希婧,
小为 28×28,均为灰度图像。静态手势识别的网络设置
2013,
手势识别[J].厦门大学学报(自然科学版), 52(4):
493-497.
为:设置 5 个卷积层,降采样层采用平均采样法。动态手 TAO Lijun,LI Cuihua,ZHANG Xijing,et al. Dynamic ges-
势识别模块的网络设置为:设置 3 个卷积层,降采样层 ture recognition based on Kinect depth data [J]. Journal of Xia-
采用平均采样法。合并输出层采用平均点积法,权值各 men University(natural science),2013,52(4):493-497.
为 0.5,分类器采用 Softmax 算法。实验分别进行 10 次, (下转第 133 页)

万方数据
第 23 期 袁 涛,等:发动机冷却水泵智能控制系统设计 133

和手机 APP 端可以及时地显示冷却系统的相关信息,有 (natural science edition),2012,35(12):1620-1623.

助于车主在行车状态和非行车状态下查看冷却系统的 [5] ZHAO B,HOU D,CHEN H,et al. Optimization design of a


double - channel pump by means of orthogonal test,CFD,and
故障信息,及时维修。本设计结构简单,运行稳定,成本
experimental analysis [J]. Advances in mechanical engineering,
较低,
能够适用于发动机冷却系统,
具有广阔的应用前景。
2014(11):1-10.
参 考 文 献 [6] WANG X,LIANG X,HAO Z,et al. Comparison of electrical
and mechanical water pump performance in internal combus-
[1] 李维强,李伟,施卫东,等 . 汽车发动机冷却水泵的研究进展 tion engine [J]. International journal of vehicle systems mode -
[J]. 排灌机械工程学报,2016,34(1):9-17. ling and testing,2015,10(3):205-223.
LI Weiqiang,LI Wei,SHI Weidong,et al. Research progress [7] 薛党勤 . 汽车冷却水泵优化设计及汽蚀振动特性研究[D]. 北
of automotive engine cooling pump [J]. Journal of irrigation and 京:中国农业大学,2015.
drainage engineering,2016,34(1):9-17. XUE Dangqin. Study on optimization design and cavitation vi-
[2] 唐刚志,张力,焦志盛 . 发动机冷却水套设计及改进[J]. 内燃机 bration characteristics of automobile cooling water pump [D].
工程,2014,35(4):91-96. Beijing:China Agricultural University,2015.
TANG Gangzhi,ZHANG Li,JIAO Zhisheng. Design and im- [8] 曹占龙,李宏燕,任柏林 . 汽车水泵故障分析及改进[J]. 湖北汽
provement of engine cooling water jacket [J]. Internal combus- 车工业学院学报,2013,27(3):65-68.
tion engine engineering,2014,35(4):91-96. CAO Zhanlong,LI Hongyan,REN Bolin. Fault analysis and
[3] 李伟,施卫东,裴冰,等 . 发动机冷却水泵空化特性的数值模拟 improvement of automobile pump [J]. Journal of Hubei Automo-
与改进[J]. 内燃机学报,2013,31(2):165-170. tive Industry Institute,2013,27(3):65-68.
LI Wei,SHI Weidong,PEI Bing,et al. Numerical simulation [9] 吴杰,唐倩,张元勋,等 . 基于 CFD 的汽车冷却系统水泵叶轮设
and improvement of cavitation characteristics of engine cooling 计与实验[J]. 机械研究与应用,2013,26(2):89-91.
pump [J]. Journal of internal combustion engines, 2013, 31 WU Jie,TANG Qian,ZHANG Yuanxun,et al. Design and ex-
(2):165-170. periment of water pump impeller of automobile cooling system
[4] 葛锁良,方明,王泳 . 基于 PLC 的水泵智能控制及能耗监测系 based on CFD [J]. Mechanical research and application,2013,
统设计[J]. 合肥工业大学学报(自然科学版),2012,35(12): 26(2):89-91.
1620-1623. [10] 翁祖亮 . 冷却水泵实用技术[M]. 上海:上海交通大学出版社,
GE Suoliang,FANG Ming,WANG Yong. Design of intelligent 2004.
control and energy consumption monitoring system of pump WENG Zuliang. Practical technology of cooling water pump
based on PLC [J]. Journal of Hefei University of Technology [M]. Shanghai:Shanghai Jiao Tong University Press,2004.

作者简介:袁 涛(1990—),男,山西晋城人,硕士研究生,主要从事计算机辅助设计、智能制造等研究。
吕 健(1983—),男,满族,河北承德人,博士,副教授,主要从事计算机辅助设计、智能制造等研究。
王 波(1993—),男,贵州毕节人,硕士研究生,主要从事嵌入式与自动化装置研究。
􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎􀤎
(上接第 129 页)
[6] XU Y,WANG Q,BAI X,et al. A novel feature extracting [D]. 成都:电子科技大学,2013.
method for dynamic gesture recognition based on support vector WU Yaoling. YCrCb color space face detection algorithm based
machine [C]// 2014 IEEE International Conference on Informa- on the design and implementation [D]. Chengdu:University of
tion and Automation. Hailar:IEEE,2014:437-441. Electronic Science and Technology of China,2013.
[7] SERMANET P,KAVUKCUOGLU K,CHINTALA S,et al. Pe- [10] 彭雅琴,成孝刚 . 一种优化的卷积神经网络深度学习算法[J].
destrian detection with unsupervised multi - stage feature lear - 现代电子技术,2016,39(23):179-181.
ning [C]// 2013 IEEE Conference on Computer Vision and Pat- PENG Yaqin,CHENG Xiaogang. An optimized deep learning
tern Recognition. Portland:IEEE,2013:3626-3633. algorithm of convolutional neural networks [J]. Modern elec-
[8] ZHANG C, ZHANG Z. Improving multiview face detection tronics technique,2016,39(23):179-181.
with multi - task deep convolutional neural networks [C]// 2014 [11] SAXE A M,PANG W,KOH Z,et al. On random weights
IEEE Winter Conference on Application of Computer Vision. and unsupervised feature learning [C]// Proceeding of 2011 In-
Steamboat:IEEE,2014:1036-1041. ternational Conference on Machine Learning. Bellevue:
[9] 吴要领 . 基于 YCrCb 色彩空间的人脸检测算法的设计与实现 ACM,2011:1089-1096.

作者简介:汪 涛(1978—),男,江苏泰州人,硕士,主要研究方向为人工智能。

万方数据

You might also like