Professional Documents
Culture Documents
基于单目视觉的在线人体康复动作识别
基于单目视觉的在线人体康复动作识别
基于单目视觉的在线人体康复动作识别
l38 No
.2
2021年 2月 Co
mput
erApp
lic
ati
onsa
ndSo
ft
war
e Fe
b.2021
基于单目视觉的在线人体康复动作识别
闫 航1,2 陈 刚2 崔莉亚1,2 张乐芸3 胡北辰1
1
(郑州大学信息工程学院 河南 郑州 4
500
01)
2
(郑州大学互联网医疗与健康服务协同创新中心 河南 郑州 4
500
52)
3
(郑州大学护理与健康学院 河南 郑州 4
500
01)
摘 要 为了进一步提高居家监护场景下人体动作识别的可靠性与实时性,更好地辅助出院后的卒中患者进
行康复训练,提出一种基于单目视觉的在线人体动作识别算法。融合姿态估计 Ope
nPo
se与最近邻匹配算法对监
控视频流中的目标人体生成动作序列。通过滑动窗口选取原始姿态特征并对其预处理转化为鲁棒性特征,输入
到多层 LS
TM长短时记忆网络中进行康复动作识别。实验结果表明,该方法对活动背景、人体穿着、无关人员的
干扰等具有较强的适应能力,能够在线识别连续的康复动作且准确率达 90.
66%,在居家康复训练场景中有一定
的应用价值。
ONLI
NEHUMANREHABI
LITATI
ONACTI
ONRECOGNI
TIONBASED
ONMONOCULARVI
SION
1,
2 2 1,
2
Ya
nHa
ng Ch
enGa
ng CuiLi
ya Zha
ngLe
yun3 HuBe
ichn1
e
1
(Co
ll
egeo
fIn
for
mat
io
nEn
gin
eer
ing,Zh
eng
zho
uUn
ive
rsi
ty,Zh
eng
zho
u45
000
1,He
nan,Ch
ina)
2
(I
nte
rne
tMe
dic
ala
ndHe
alt
hSe
rvi
ceCo
ll
abo
rat
iv
eIn
nov
ati
onCe
nte
r,Zh
eng
zho
uUn
ive
rsi
ty,Zh
eng
zho
u45
005
2,He
nan,Ch
ina)
3
(Co
ll
egeo
fNu
rsi
nga
ndHe
alt
h,Zh
eng
zho
uUn
ive
rsi
ty,Zh
eng
zho
u45
000
1,He
nan,Ch
ina)
Abs
tra
ct I
nor
dert
ofur
the
rimpr
ovet
hes
tab
ili
tya
ndr
eal
t
imeo
fhuma
nac
ti
onr
eco
gni
ti
oni
ntheho
memo
nit
ori
ng
s
cene
,andbe
tt
era
ssi
stdi
scha
rge
dst
rok
epa
ti
ent
stope
rfo
rmr
eha
bil
it
at
io
ntr
aini
ng,wepr
opo
sea
nonl
inea
cti
on
r
eco
gni
ti
ona
lgo
rit
hmba
sedo
nmo
noc
ula
rvi
si
on.Op
enPo
sea
ndne
are
stne
ighbo
rma
tchi
nga
lgo
rit
hm we
rec
ombi
nedt
o
g
ene
rat
eac
ti
ons
eque
nce
sfo
rta
rge
thu
manb
odyi
nsur
vei
ll
anc
evi
deos
tr
eams
.Theo
rig
ina
lfe
atur
eswe
res
ele
cte
dby
s
li
dingwi
ndo
wandt
rans
for
medi
ntor
obu
stne
ssf
eat
ure
s.Thef
eat
ure
swe
rei
nputi
ntomul
ti
l
aye
rLSTM f
orr
eha
bil
it
at
io
n
a
cti
onr
eco
gni
ti
on.Thee
xpe
rime
nta
lre
sul
tss
howt
hatt
hepr
opo
sedme
tho
dha
sst
ronga
dapt
abi
li
tyt
otheba
ckg
roundo
f
a
cti
vi
ti
es,huma
nbo
dywe
ar,i
nte
rfe
renc
efr
omu
nre
lat
edpe
rso
nne
l,e
tc.I
tca
nre
cog
niz
eco
nti
nuo
usr
eha
bil
it
at
io
n
a
cti
onso
nli
newi
tha
nac
cur
acyr
ateo
f90.
66%,wh
ichha
sce
rta
ina
ppl
ic
ati
onv
aluei
nho
mer
eha
bil
it
at
io
nsc
ene
.
Ke
ywor
ds Po
see
sti
mat
io
n Ac
ti
onr
eco
gni
ti
on LS
TM Re
habi
li
ta
ti
ont
rai
ning Ho
mec
are
涉及图像处理、模式识别、人工智能等多个学科,在智
0 引 言 能监控、人机交互、康复运动等领域有着广泛的应用前
景 [1]。脑卒中是最常见的慢性病之一,具有高发病率、
近年来基于视觉的人体动作识别的研究得到了广 高致残率的特点,是老年人健康的重大威胁。而康复
泛的关注,是计算机视觉中一个极具挑战性的课题,其 锻炼是恢复卒中患者日常生活能力的主要手段,也是
收稿日期:
201
9-0
8-0
9。国家重点研发计划项目(2
017YFB1
401
200);河南省科技攻关项目(1
821
023
101
37);赛尔网络下一代
互联网技术创新项目(NGI
I20
170
716);
201
9年河南省高等学校重点科研项目(1
9A5
200
39)。闫航,硕士生,主研领域:计算机视觉,
动作识别。陈刚,工程师。崔莉亚,硕士生。张乐芸,硕士生。胡北辰,硕士生。
172 计算机应用与软件 2021年
点的置信度及亲和度之后,采用匈牙利算法对相邻关 重矩阵;bi、bf、bo分别为输入门、遗忘门和输出门的偏
键点进行最优匹配,从而得到每一个人的骨架信息。 置。LSTM的输出由记忆单元与输出门联合计算如下:
Ope
nPo
se的实时性非常出色,采用单目摄像头即可获 ~
ct =t
anh(Wc·ht-1 +Wc·xt +bc) (4)
取可靠的关键点信息,无需专用的深度摄像头。 ~
c
t =f
t ×c
t-1 +i
t × ct (5)
ht =ot ×t
anh(c
t) (6)
~
式中:ct是 t时刻的候选状态;Wc为候选状态的权重
矩阵;bc是候选状态的偏置;c
t为 t时刻的记忆单元;ht
则为 t时刻最终的输出。
图 1 多阶段预测网络架构
2 在线动作识别算法
1.
2 循环神经网络
循环神经网络(Re
cur
ren
tNe
ura
lNe
two
rk,RNN)是 2.
1 算法框架
一种利用上下文状态来挖掘数据中时序信息的深度神
本文提出的在线动作识别算法主要由动作信息采
经网络。相比于卷积神经网络,
RNN会对于每一个时刻
集、特征提取和分类网络组成。算法的识别框架如图
的输入结合当前模型的状态计算输出。单纯的 RNN存
3所示,其输入为单目摄像头获取的实时监控视频流,
在长期依赖问题,可能会丧失学习远距离信息的能力。
首先采用姿态估计 Ope
nPo
se提取图像帧中的多人骨
长短时记忆网络(LS
TM)的出现成功解决了梯度消失问
架关键点,结合最近邻匹配算法在持续的监控流中生
题,是当前最为流行的 RNN网络,广泛应用于语音识
成目标人体动作序列,记录人体手部、手臂、腿部、颈部
别、
自然语言处理、
视频描述、
动作识别等领域。
等多个关节的运动轨迹。动作序列为具备时序关系的
图 2为 LSTM的网络结构示意图,LS
TM的输入包
连续 2D骨架关键点,每帧提取的骨架信息作为一个
括当前时刻网络的输入 xt、上一刻 LS
TM的输出 ht-1、
时间步长。在动作序列上通过滑窗选取原始骨架关键
上一时刻的记忆单元 c
t-1,输出包括当前时刻的输出 ht
点特征,经过坐标归一化、绝对坐标转相对坐标从而转
和当前时刻的记忆单元 c
t。
化为鲁棒性特征并输入到构建的 LSTM 分类网络中,
通过 So
ft
max分类器判断三种康复动作并区分正常活
动所表现的动作与状态。
图 2 LS
TM网络结构示意图
LSTM通过输入门与遗忘门控制记忆单元并结合
输出门从而更有效地刻画长距离依赖。输入门、遗忘
门与输出门的计算如下:
i
t =σ(Wi·[ht-1,xt]+bi) (1)
t =σ
f (Wf·[ht-1,xt]+bf) (2) 图 3 在线动作识别算法框架
ot =σ(Wo·[ht-1,xt]+bo) (3) 滑窗大小的选择通过实验并结合平台处理速度与
式中:Wi、Wf、Wo分别为输入门、遗忘门和输出门的权 动作持续时间,LSTM 分类网络则采用经过裁剪的康
174 计算机应用与软件 2021年
有极强的速度优势。由于每一帧只对提取的 1
8个人 i
y
d 值最大的人体 i则认为距离摄像头最近,确定为在
体骨架关键点进行处理,构建的 LS
TM 网络相对于主 线动作识别的目标人体并为其创建一个动作序列。
流方法中的 CNN网络而言其参数大大减少,模型易于 2)目标最近邻匹配。以脖子部位的关键点坐标
优化从而避免了对海量数据集的依赖。 i
为基准坐标,计算当前帧每个人体 i的基准坐标(x
1,
2.
2 算法流程 i
y
1)与前一帧目标人体基准坐标(x0,y
0)的欧氏距离
2.
2.1 动作信息采集 di,di最小者判断为目标人体。di计算方法如下:
本文以 1920×1080分辨率的单目摄像头获取实 i 2 i 2
di = 槡(x
0 -x
1) +(y0 -y
1) (7)
时监控视频流,用于在线动作识别。采用智能手机以
3)生成动作序列。结合最近邻匹配结果将视频
及单目摄像头采集经过裁剪的康复动作数据,用于训
流中目标人体的 18个骨架关键点按照时序关系加入
练分类网络。为了提高识别算法的鲁棒性和给予被监
到动作序列中,若连续 10帧没有检测到目标人体,则
护人员一定的自由度,数据集存在角度、远近、背景、分
删除 目 标 动 作 序 列,重 新 执 行 步 骤 1)以 确 认 目 标
辨率的差异。
人体。
利用姿态估计方法 Ope
nPo
se提取骨架关键点,通
2.
2.2 特征提取
过 VGG
19网络将输入的图像转化为图像特征 F,然
本文通过滑动窗口的方式从动作序列中提取原始
后通过多层 CNN分别预测关键点置信度与亲和度向
特征,每帧的目标人体有 18个 2D骨架关键点,共 3
6
量,联合置信度与亲和度向量得出人体的骨架信息。
训练过程中模型总损失为置信度网络与亲和度向量场 个特征。设置滑动窗口的大小为 n,即连续 n帧图像作
n
1
n∑
μ= pi (9)
i=1 3 实 验
n
2 1
σ = ∑ (p -μ)2 (1
0)
ni=1 i
3.
1 实验平台
- p i -μ
pi = (1
1) 本实验 的 硬 件 环 境 如 下:CPU 为 酷 睿 i
78750,
2
槡σ
2.
20GHz
,8GB内存;GPU为 GTX1060,
6GB显存;监
式中:μ为 n个样本的均值;σ2 为标准差。每个样本的
- 控摄像头的分辨率为 1920×1080。搭建的深度学习
特征通过式(11)进行标准化,pi则为转换后的鲁棒性
模型基于 Te
nso
rFl
ow框架,采用 GPU加速处理过程。
特征。
2.
2.3 分类网络设计 3.
2 数据集
动作的描述可以由具备时序关系的一系列人体关 为了客观评价算法的准确性以及在康复场景的可
键点构成 [1
7]
。为了充分挖掘序列的关系,设计了双层 用性,本文选取一个公开数据集 KTH[18],并参考文献
叠加的长短时记忆网络。本文设计的动作分类网络如 [19]规范的脑卒中患者康复动作采集了一组康复动
图 5所示,输入为滑窗提取并经过预处理得到的长度 作数据集,各数据集如图 6所示。
为 n、特征维度为 36的骨架关键点序列。两个 LSTM
网络单元的神经元个数为 32,时间步长等于滑动窗口
的大小 n,第一层隐藏层每个时间步的输出状态传递
给第二层隐藏层,取最后一个时间步的输出向量传递
给神经元个数为 64的全连接层,最后通过 S
oft
max分
类器进行动作类型的识别。So
ft
max分类器通过 So
ft
ma
x激活函数将多个神经元的输出映射到(0,
1)之间,
即各个类别的数值转化为概率,概率最大的类别即判
定为分类结果。此外人体的大部分时间为静止坐位、
慢走、站立等正常活动,而将正常活动误识别为康复动
作对于患者的康复过程是不可靠的。分类网络将多种
正常活动视为一类动作类型,同时进行康复动作以及
正常活动的识别,提升了对康复动作识别的稳定性。
图 6 KTH与康复动作数据集样本示例
1)KTH是计算机视觉一个具有标志性的数据集,
包含了 4类场景下 25个志愿者的 6种行为:慢跑(J
og
图 5 人体动作分类网络
g
ing
)、步 行 (Wa
lki
ng)、跑 步 (Runni
ng)、拳 击 (Bo
x
网络参数的更新采用经过裁剪的康复动作视频段 i
ng)、挥手(Ha
ndwa
ving
)和拍手(Ha
ndc
lappo
ng)。该
s
ize
)输入到分类网络,进行前向传播得到损失值,采用 时间步长 KTH 康复动作数据集
Ada
m 优 化 器 来 最 小 化 损 失 函 数,学 习 率 设 置 为 1
0 9
1.2
0 9
7.2
4
0.
001。 2
0 9
3.0
5 9
7.9
3
KTH数据集的样本较少,采用数据增广的方法将
4
0 9
4.9
0 1
00
训练集扩充一倍,对视频进行左右对称变换并将其比
6
0 9
5.3
7 1
00
例转换为 5∶
4。将康复动作数据集按照 7∶
3的比例随
8
0 9
2.5
9 1
00
机分为训练集与测试集,同时保证测试集中每种动作
的样本比例均衡。另外,为了增大帧间动作差异同时 本文将姿态估计算法获取的骨架关键点进行了预
提升运行效率,每间隔 3个图像帧进行处理。训练时 处理,将其转换为鲁棒性特征,在对比分析加上预处理
批量设 置 为 32,一 共 分 500个 Epo
ch运 行,模 型 在 后的识别效果。KTH数据集上时间步为 60,隐藏层节
KTH数据集和康复动作数据集上分别训练迭代900
0、 点个数为 64。康复动作数据集上时间步为 40,隐藏层
6000次后逐渐收敛。 节点个数为 32,对比分析结果如表 4所示。相比于原
3.
4 实验结果 始特征输入到分类模型,经过预处理后的鲁棒性特征
3.
4.1 不同模型设置对精度的影响 在 KTH与康复动作数据集的识别准确率分别提高了
动作识别数据集的对比分析通常采用准确率作为 2.
78和 1.
04个百分点。
评价标准,为分析不同的模型设置对识别精度的影响, 表 4 特征预处理对识别精度的影响 %
实验分别从 LSTM单元隐藏层节点个数、时间步长、特 特征类型 KTH 康复动作数据集
征预处理三个方面对 KTH与康复动作数据集进行分
原始特征 9
2.5
9 9
8.9
6
析。实验分别将 LSTM隐藏层节点个数设置为 1
6、3
2、
鲁棒性特征 9
5.3
7 1
00
64、
128,时间步长统一设置为 5
0,实验结果如表 2所
示。当隐藏层节点个数依次增加时,KTH与康复动作 3.
4.2 不同算法的识别精度对比
数据集的识别准确率分别提高至 9
4.9%、1
00%。依 为了客观展示算法的性能,表 5展示了与其他文
据实验结果选取最佳的隐藏层节点数量,在 KTH数据 献中的算法在 KTH数据集上的对比结果。文献[7]是
第 2期 闫航,等:基于单目视觉的在线人体康复动作识别 177
方法 准确率 /
%
3DCNN[7] 9
0.2
0
Mu
lti-l
evl+KNN[20]
e 9
1.9
9
图 7 在线动作识别结果
[2
1]
I
mpr
ove
dBOW +S
VM 9
3.6
0
为了客观展示算法于在线动作识别方式下对康复
YOLO[22]
LC 9
6.6
3 动作的识别准确率,实验人员连续做左右臂锻炼、上下
本文方法 9
5.3
7 臂锻炼、坐起锻炼各 50次,并以站立、慢走等正常活动
作为间隔动作。实验结果如表 7所示,算法平均识别
对于康复动作数据集,采用姿态估计算法提取骨
率达 93%,且不易将正常活动误识别为康复动作,在
架关键点并应用相同的特征预处理方式,分别与隐马
线场景下能够有效进行康复动作识别。然而相对于在
尔可 夫 模 型 (HMM)、全 连 接 循 环 神 经 网 络 (Si
m
pl
eRNN)和门控循环单元(GRU)三种优秀的时序关系 康复动作数据集中的表现,在线场景下模型对三种康
LSTM网络进行动作分类。利用 Ope
nPo
se获取骨架关 I
nte
rna
ti
ona
lCo
nfe
ren
ceo
nNe
ura
lIn
for
mat
io
n Pr
oce
ssi
ng
键点的实时性对监控流中的目标人体进行快速检测, S
yst
ems
.ACM,
201
4:5
68-5
76.
同时基于基准坐标结合最近邻匹配算法跟踪目标人 [9] Do
nah
ueJ
,He
ndr
ick
sLA,Ro
hrb
achM,e
tal
.Lo
ng
ter
mre
c
urr
entc
onv
olu
tio
naln
etwo
rksf
orv
isu
alr
eco
gni
ti
ona
ndd
e
体,避免了视频流中大量无关区域以及其他人体的噪
s
cri
pti
on[C]//
IEEE Tr
ans
act
io
nso
nPa
tt
ernAn
aly
sisa
nd
声干扰。结合 LSTM 对长时间序列的处理能力,能够
Ma
chi
neI
nte
ll
ig
enc
e,2
017,
39(4):
677-6
91.
对视频流中目标人体的行为做出准确的识别。通过在
[10] XuH J
,Da
sA,S
aen
koK.R
C3D:Re
gio
nco
nvo
lut
io
nal3D
公开数据集 KTH和康复动作数据集中实验,KTH数据 n
etwo
rkf
ort
emp
ora
lac
ti
vi
tyd
ete
cti
on[C]//
201
7IEEEI
n
集的平均识别率达 95.37%,康复动作数据集中的识 t
ern
ati
ona
lCo
nfe
ren
ceo
nCo
mpu
terVi
si
on(I
CCV).I
EEE,
别率达到了 100%。在线动作识别下的康复动作识别 2
017:
579
4-5
803.
率达 90.
66%,证明了该方法的有效性,探索了基于计 [11] 罗会兰,王婵娟,卢飞.视频行为识别综述[J
].通信学报,
算机视觉的动作识别方法在康复训练领域的应用。 2
018,
39(6):
169-1
80.
[2] 朱翠平,吴美华,徐晓芳,等.家庭康复护理对农村脑卒中 p
ers
on2Dp
osee
sti
mat
io
nus
ingp
arta
ff
ini
tyf
ie
lds
[J].I
EEE
偏瘫病人肢体运动功能的影响[J
].护理研究,2
017,3
1 Tr
ans
act
io
nso
nPa
tt
ernAn
aly
sisa
ndMa
chi
neI
nte
ll
ig
enc
e,
(1
1):
136
5-1
367. 2
021,
43(1):
172-1
86.
[17] Ya
nS,Xi
ongY,Li
nD.S
pat
ia
lte
mpo
ralg
rap
hco
nvo
lut
io
nal
[3] 盛晗,邵圣文,王惠琴,等.脑卒中患者康复锻炼依从性动
n
etwo
rksf
ors
kel
et
on
bas
eda
cti
onr
eco
gni
ti
on[C]//
32n
d
态变化 的 研 究 [J
].中 华 护 理 杂 志,2
016,5
1(6):7
12
AAAICo
nfe
ren
ceo
nAr
ti
fi
ci
alI
nte
ll
ig
enc
e,2
018.
-7
15.
[18] S
chu
ldtC,La
pte
vI,Ca
put
oB.Re
cog
niz
ingh
uma
nac
ti
ons
:a
[4] Bi
si
oI,De
lf
inoA,La
vag
ett
oF,e
tal
.En
abl
ingI
oTf
ori
n
l
oca
lSVM a
ppr
oac
h[C]//
Pro
cee
din
gso
fth
e17t
hIn
ter
na
h
ome r
eha
bil
it
at
io
n: Ac
cel
ero
met
ers
ign
alsc
las
sif
ic
ati
on
t
io
nalCo
nfe
ren
ceo
nPa
tt
ernRe
cog
nit
io
n.I
EEE,2
004:3
2
me
tho
dsf
ora
cti
vi
tya
ndmo
veme
ntr
eco
gni
ti
on[J
].I
EEEI
n
-3
6.
t
ern
eto
fTh
ing
sJo
urn
al,
201
6,4(1):
135-1
46.
[19] 许梦雅,杨伟民.家庭医疗体操在缺血性脑卒中社区康复
[5] 马高远,林明星,吴筱坚,等.基于人体动作反馈的上肢康
中的应用[J
].中国老年学,
201
0,3
0(1
7):
243
7-2
438.
复机器人主 动 感 知 系 统 [J
].机 器 人,2
018,4
0(4):4
91
[20] Ch
ara
lamp
ousK,Ga
ste
rat
osA.On
li
ned
eepl
ear
nin
gme
tho
d
-4
99.
f
ora
cti
onr
eco
gni
ti
on[J
].Pa
tt
ernAn
aly
sisa
ndAp
pli
cat
io
ns,
[6] Wa
ngH,S
chmi
dC.Ac
ti
onr
eco
gni
ti
onwi
thi
mpr
ove
dtr
aje
c
2
016,
19(2):
337-3
54.
t
ori
es[C]//
201
3IEEEI
nte
rna
ti
ona
lCo
nfe
ren
ceo
nCo
mpu
t [21] 张良,鲁梦梦,姜华,等.局部分布信息增强的视觉单词描
e
rVi
si
on.I
EEE,
201
3:3
551-3
558. 述与动作识 别 [J
].电 子 与 信 息 学 报,2
016,3
8(3):5
49
[7] J
iSW,XuW,Ya
ngM,e
tal
.3Dc
onv
olu
tio
naln
eur
aln
et -5
56.
wo
rksf
orh
uma
nac
ti
onr
eco
gni
ti
on[J
].I
EEETr
ans
act
io
ns [22] 马钰锡,谭励,董旭,等.面向智能监控的动作识别[J
].中
o
nPa
tt
ernAn
aly
sisa
ndMa
chi
neI
nte
ll
ig
enc
e,2
013,
35(1): 国图象图形学报,
201
9,2
4(2):
128-1
36.
2
21-2
31. [23] Re
dmo
nJ,Fa
rha
diA.YOLO9
000:Be
tt
er,f
ast
er,s
tr
ong
er
[8]S
imo
nya
nK,Zi
sse
rma
nA.Two
st
rea
mco
nvo
lut
io
naln
etwo
rks [C]//
Pro
cee
din
gso
fth
eIEEECo
nfe
ren
ceo
nCo
mpu
terVi
f
ora
cti
onr
eco
gni
ti
oni
nvi
deo
s[C]//
Pro
cee
din
gso
fth
e27t
h s
iona
ndPa
tt
ernRe
cog
nit
io
n.I
EEE,
201
7:6
517-6
525.