基于深度学习的机械臂目标检测算法_张蕾

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 10

西安工程大学学报

Journal of Xi'an Polytechnic University


ISSN 1674-649X,CN 61-1471/N

《西安工程大学学报》网络首发论文

题目: 基于深度学习的机械臂目标检测算法
作者: 张蕾,张旺,袁媛
收稿日期: 2023-09-30
网络首发日期: 2024-07-15
引用格式: 张蕾,张旺,袁媛.基于深度学习的机械臂目标检测算法[J/OL].西安工程大
学学报. https://link.cnki.net/urlid/61.1471.n.20240709.1344.004

网络首发:在编辑部工作流程中,稿件从录用到出版要经历录用定稿、排版定稿、整期汇编定稿等阶
段。录用定稿指内容已经确定,且通过同行评议、主编终审同意刊用的稿件。排版定稿指录用定稿按照期
刊特定版式(包括网络呈现版式)排版后的稿件,可暂不确定出版年、卷、期和页码。整期汇编定稿指出
版年、卷、期、页码均已确定的印刷或数字出版的整期汇编稿件。录用定稿网络首发稿件内容必须符合《出
版管理条例》和《期刊出版管理规定》的有关规定;学术研究成果具有创新性、科学性和先进性,符合编
辑部对刊文的录用要求,不存在学术不端行为及其他侵权行为;稿件内容应基本符合国家有关书刊编辑、
出版的技术标准,正确使用和统一规范语言文字、符号、数字、外文字母、法定计量单位及地图标注等。
为确保录用定稿网络首发的严肃性,录用定稿一经发布,不得修改论文题目、作者、机构名称和学术内容,
只可基于编辑规范进行少量文字的修改。
出版确认:纸质期刊编辑部通过与《中国学术期刊(光盘版)》电子杂志社有限公司签约,在《中国
学术期刊(网络版)
》出版传播平台上创办与纸质期刊内容一致的网络版,以单篇或整期出版形式,在印刷
出版之前刊发论文的录用定稿、排版定稿、整期汇编定稿。因为《中国学术期刊(网络版)
》是国家新闻出
版广电总局批准的网络连续型出版物(ISSN 2096-4188,CN 11-6037/Z),所以签约期刊的网络版上网络首
发论文视为正式出版。
网络首发时间:2024-07-15 15:06:33
西 安 工 程 大 学 学 报
网络首发地址:https://link.cnki.net/urlid/61.1471.n.20240709.1344.004
J
ourna
lofXi’anPo
lyt
echn
icUn
ive
rsi
ty
第 38 卷第 5 期(总 189 期) 2024 10
年 月 Vo
l.38, 5(
No. Sum. 189)
No.

基于深度学习的机械臂目标检测算法
张 蕾,张 旺,袁 媛
(西安工程大学 电子信息学院,陕西 西安 710048)

摘要 针对现有的目标检测算法部署在机械臂上会占用大量系统资源、检测实时性差、模型参数量
大等问题,提 出 一 种 改 进 YOLOv5 的 目 标 检 测 算 法。 首 先,在 YOLOv5 骨 干 网 络 融 入 Sh
ffl
e-
ne
tV2 模块代替原本的焦点模块和跨级局 部 暗 格 网 络,实 现 网 络 的 轻 量 化;其 次,主 干 网 络 末 端 颈
con
部将带有残差精化的上下文转换器注意力( tex
t-t
rans
forme
rwi
thr
esi
dua
lre
fi t,
nemen CTR3)
模块嵌入到所设计的骨干网络中,来改善模型的特征提取潜 力 并 减 小 采 样 带 来 的 损 失;再 次,头 部
采用基于一致性的自 适 应 信 息 传 递 注 意 力 (
simi
lar
it-
yba
sedadap
tive me
ssagepa
ssi
nga
tten
tion,
imAM)模块来增强特征的跨尺度融 合 能 力;最 后,为 提 高 检 测 算 法 对 目 标 的 边 界 框 回 归 速 率 和
S
样本稳固性,引入新型加权交并比 (
wei
ght
edi
nte
rse
cti
onove
run
ion,WI
oU)函数,在目标检测网
络设计完成后,将其部署在机 械 臂 上 并 完 成 验 证。 实 验 结 果 表 明:文 中 改 进 的 检 测 算 法 准 确 率 为
5% ;检测速度为每 秒 82 帧,相 比 原 算 法 提 高 32 帧;参 数 量 为 430×10 ,相 比 原 算 法 减 少 了
96.
4

39% ;每秒浮点数计算次数为 6.
7 次,约为原计算次数的 1/3。数据表明改进后的检测算法检测速
度快、参数量少、占用内存小,满足精准检测的前提下提高了检测效率。
关键词 YOLOv5;注意力;损失函数
机械臂;目标检测;
TP242
中图分类号: A
文献标志码:

Robo
tica
rmt
are
gtd
ete
cti
ona
lgo
rit
hmc
omb
ine
d
wi
thd
eepl
earn
ing
i,
ZHANG Le ZHANG Wang,
YUAN Yuan

(
Schoo
lofEl
ect
ron
icsandI
nfo
rma
tion,
Xi’
anPo
lyt
echn
icUn
ive
rsi
ty,
Xi’
an710048,
Chna)
i

Ab
str
act I
nvi
ew o
fthep
rob
lemst
hatex
ist
ingt
arge
tde
tec
tiona
lgo
rit
hmsdep
loyedonr
obo
tic

2023
收稿日期: -09-30 修回日期:2024-03
-19
基金项目:陕西省科技厅科技技术转化项目( 2020TG-011);陕西省科技厅重点研发项目( 2019ZDLGY01
-08)
通信作者:张蕾( 1981—),女,教授,博士,研究方向主要为机械臂的研究。E -ma
il:
3132364726@qq.c
om
2 西 安 工 程 大 学 学 报 第 38 卷

a
rmswou
ldoc
cupyal
argeamoun
tofsys
tem r
esour
ces,
havepoo
rre
al-
timede
tec
tionpe
rfo
rm-
e,
anc andhaveal
argenumbe
rofmode
lpa
rame
tes,
r animp
roved YOLOv5t
arge
tde
tec
tiona
lgo
-
r
ithm wa
spr
opos
ed.
Fir
st,
theSh
ffl
ene
tV2 modu
le wa
sin
teg
rat
edi
ntot
he YOLOv5 ba
ckbone
ne
two
rkt
orep
lac
etheo
rii
gna
lfo
cus modu
leandc
ros
s-l
eve
llo
calda
rkg
ridne
two
rkt
oach
ieve
l
igh
twe
igh
tne
two
rk.
Sec
ond
ly,
theendne
cko
ftheba
ckbonene
two
rk wou
ldhaveac
ont
extc
on-
ve
rte
rat
ten
tion modu
lewi
thr
esi
dua
lre
fi t(
nemen CTR3)
modu
lewa
sembeddedi
ntot
hede
signed
ba
ckbonene
two
rkt
oimpr
ovet
hef
eat
ureex
tra
cti
onpo
ten
tia
loft
he mode
landr
educ
ethel
oss
c edbys
aus amp
li Then,
ng. thehe
adus
esas
imi
lar
it-
yba
sedadap
tiveme
ssagepa
ssnga
i tten
tion(
Si-
mAM)modu
let
oenhanc
ethec
ros
s-s
cal
efus
ionab
ili
tyo
ffe
atu
res.
Fina
lly,
ino
rde
rtoimpr
ove
theboundi
ngboxregre
s s
ionr
ateandsampl
estab
ili
tyofthede
tec
tionalgo
rithmforthet
a t,
rge a
new wei
ghtedi
nte
rse
ctionove
runion(WIoU)f
unction;a
fte
rthetarge
tdetec
tionne
tworkdes
ign
wa
scomp
leed,
t itwa
sdep
loyedont
her
obo
tica
rm andve
rif
ied.
Expe
rimen
talr
esu
ltsshowt
hat
t
hea
ccur
acyo
ftheimpr
ovedde
tec
tiona
lgo
rit
hmi
nth
isa
rti
clei 5% ;t
s96. hede
tec
tionspe
edi
s
82f
r spe
ame rse
cond,
whi
chi
s32f
rame
shi
ghe
rthant
heo
rii
gna
lal
gor
ithm;t
henumbe
rofpa
-
r
ame
ter
sis430×10 ,
whi
chi
s39% l
owe
rthant
heo
rii
gna
lal
gor
ithm;f
loa
tingpo
intnumbe
rca
l-
4

cu
lat
ionpe
rse
condThenumbe
roft
ime
si 7,
s6. wh
ichi t1/3o
sabou ftheo
rii
gna
lnumbe
rofc
al-
cu
lat
ions;t
heda
tashowst
hatt
heimp
rovedde
tec
tiona
lgo
rit
hm ha
sfa
stde
tec
ti ed,
onspe sma
ll
numbe
rofpa
rame
tes,
r andsma
llmemo
r age,
yus andimp
rove
sde
tec
tione
ffi
ciency wh
ile me
eti
ng
t r
hepemi
seo
fac
cur
atede
tec
tion.
Ke
ywo
rds r
obo
ti rm;
ca obe
jctde
tec
tion;
YOLOv5;
att
ent
ion;
los
sfunc
tion

0 引 言
传统机械臂通常对固定位置下的固定目标进行 点,用 K-me
ans聚类 和 SVM 训 练 模 型 实 现 目 标 检
检测和抓取,适用于 在 简 单 场 景 下 执 行 检 测 和 抓 取 测。与特征点匹配 相 比,机 器 学 习 算 法 识 别 准 确 率
工作 [
1]
,当外界环境和执行任务变化时,其效率和灵 较高,但应用在机械 臂 上 过 于 依 赖 人 工 设 计 和 计 算
活性大幅下降。将目标检测算法部署在机械臂上对 资源,识别准确度、检测效率和鲁棒性不佳 [11-12]。近
目标物体进行检测和定位,从而实现抓取,是目前研 年来,基于深度学习 的 机 械 臂 目 标 检 测 算 法 得 到 广
究的热点 [2-3]。 泛应用,此算法具有更强的特征提取能力,能自主学
应用在机械臂上的目标检测算法有特征点匹 习训练数据 并 提 取 特 征,从 而 提 高 精 度 和 速 度 [13]。
配、传统机器学习和深度学习等 [4-6]。特征点匹配是 基于深度的学习目标检测算法分为单阶段和双阶段
一种用于匹配图像 中 特 征 点 位 置 的 算 法,加 速 稳 健 2 种,常 用 的 单 阶 段 算 法 有 YOLO 系 列、单 发 多 框
spe
特征( eded
-upr
obus
tfe
atur
es,
SURF)算 法 是 其 检测 器 (
sing
lesho
t mu
lti
box de
tec
tor,
SSD)算 法
7]用 SURF 以 及 随 机 抽 样
中一种实现方式。文献[ 等,双阶段 算 法 有 区 域 卷 积 神 经 网 络 (
reg
ion
-ba
sed
一致性算法匹配图像,通过双目测量获得深度信息, c
onvo
lut
iona
lneu
ralne rk,
two R-CNN)系 列。 文 献
得出目标距离和位置。但特征点匹配法应用在机械 [
14]将深 度 图 像 输 入 到 轻 量 级 卷 积 网 络 GG-CNN
臂上的传 统 目 标 检 测 算 法 依 赖 手 动 选 择 和 设 计 特 中,输出目标物体的抓取位置、抓取角度和夹持器宽
征,受目标形态、尺寸和旋转角度影响较大。传统机 度,结合闭环控制实现机械臂对物体的实时抓取;文
器学 习 算 法 包 括 自 适 应 增 强 (
adap
tive boos
ting, 15]建立了 SSD 目标检测来识别零件;文献[
献[ 16]
AdaBoot)算 法、支 持 向 量 机 (
s suppo
rtve
cto
r ma
- 使 用 深 度 图 像 作 为 输 入,通 过 轻 量 级 卷 积 网 络
ch
ine,
SVM)等。文献 [
8]用 AdaBoo
st和 单 目 相 机 HGG-CNN 处理,输出目 标 物 体 的 抓 取 位 姿 与 夹 爪
实现物体定 位,但 准 确 率 较 差;文 献 [
9]用 SVM 分 的开合值,将工作信息输入给机械臂控制器,驱动机
10]用 SURF 提 取 特 征
类识别目标点云特征;文 献[ 17]用结合 YOLO 的机
械臂稳定拾取目标物;文献[
第5期 张蕾,等:基于深度学习的机械臂目标检测算法 3

械臂目标检测算法 检 测 苹 果 及 最 佳 抓 取 位 姿;文 献 网络对提取的特征 进 行 处 理,以 获 得 具 有 不 同 尺 度


[
18]的 VGG-
19 网 络 能 同 时 识 别 出 机 械 臂 的 检 测 的语义信息;在检测 头 输 出 目 标 对 象 的 位 置 和 类 别
目标和抓取位姿。深度学习算法在速度上普遍比传 信息后,将检测头输 出 的 位 置 信 息 转 换 为 机 械 臂 末
统的机 器 学 习 算 法 慢,但 识 别 准 确 率 有 很 大 的 提 端的目标点并规划 出 运 动 轨 迹;采 用 基 于 相 机 标 定
升 [
19-
。大部分目标检测实验在运算能力较强的计
20]
和逆运动学的坐标 转 换 方 法,以 实 现 从 图 像 坐 标 到
算机上进行,将其搭载到机械臂上受内存资源、计算 机械臂运动轨迹的映射;最后,发送控制信息进行机
能力、检测帧率的 限 制,在 实 时 性、稳 定 性 上 仍 然 存 械臂的规划和控制。
在问题 [
21-

22]
1.
2 网络结构
综上 所 述,大 部 分 目 标 检 测 实 验 过 度 依 赖 计 算 目前机械臂的目标检测算法主要针对日常生活
机的运算能力,受 内 存、算 力 及 帧 率 等 方 面 的 限 制, 场景,检测的目标种类多、背景简单、特征明显,但检
在实 时 性 和 稳 定 性 上 表 现 不 佳。 因 此,本 文 设 计 测的目标在图像中相对较小,涉及到低分辨率、模糊
YOLOv5
-Shu
ffl
eNe
tV2 轻量化网络,降低网络的体 等问题。针对此类小目标检测的准确性及部署在机
积的 同 时,融 合 CTR3 和 S
imAM 注 意 力 提 高 算 法 械臂上的实时性需求,采用检测算法中相对灵活、易
对目标特征的提 取 能 力,采 用 WI
oU 使 模 型 更 专 注 部署、泛化性强 的 YOLOv5 目 标 检 测 算 法,同 时 采
于高质量锚框,在检测网络获取目标信息后,部署在 用轻量化改进 YOLOv5 以 满 足 机 械 臂 计 算 能 力 的
机械臂上抓取验证。 限制。针对轻量化 造 成 的 准 确 性 下 降 问 题,引 入 合
适的注意力机制和 损 失 函 数,使 算 法 在 尽 可 能 节 约
1 算法原理 计算资源的前提下,更集中地关注小目标区域,提高
1.
1 系统整体流程 对小目标的定位精度。改进后算法的网络结构如图
本研究聚焦于机械臂在对目标物体的检测任 2 所示。
务,通过搭载深度相 机 的 机 械 臂 目 标 检 测 网 络 识 别
并定位物体后,会 输 出 检 测 框 的 三 维 坐 标 信 息。 结
合深度信息与几何 关 系,能 够 计 算 并 确 定 出 适 宜 机
械臂进行抓取操作 的 确 切 位 姿,从 而 指 导 机 械 臂 末
端执行器执行高效且精准的抓取动作。系统的整体
流程如图 1 所示。

图 2 改进 YOLOv5 网络结构
F
ig.
2 Imp
roved YOLOv5ne
two
rks
truc
tur
e

从图 2 可以看出,改进后的算法以 YOLOv5 算
图 1 机械臂抓取目标检测流程
法的目标检测框架为基础,并使用 Shu
ffl
eNe
tV2 网
F
ig.
1 Robo
tarm g
rabb
ingt
arge
t
络进行融合,以实现网络的轻量化。同时,通过引入
de
tec
tionp
roc
ess
S
imAM 与 CTR3 注意力用 来 加 强 对 目 标 特 征 的 提
图 1 中,首先,将输入图像通过主干网络进行特
oU,转而
取能力,抛弃 YOLOv5 原本的损失函数 CI
征提取,以经典的卷积神经网络 YOLOv5 架构为基
使用 WI
oU 进一步提高检测网络的定位精度。
础,并在此网络上 进 行 改 进;其 次,使 用 特 征 金 字 塔
4 西 安 工 程 大 学 学 报 第 38 卷

1.
3 Shu
ffl
eNe
tV2 网络设计 提取不同种类图像 的 特 征,将 注 意 力 集 中 在 小 目 标
对于 改 进 的 机 械 臂 目 标 检 测 算 法,既 要 准 确 识 的特征区域,同时不 会 造 成 网 络 参 数 量 和 计 算 量 的
别到图像里的目标,还 需 尽 可 能 压 缩 算 法 的 体 积 以 大幅上升,适 用 于 轻 量 化 改 进 的 网 络 结 构。CTR3
便部署在机 械 臂 设 备 中。 由 于 原 本 YOLOv5 的 训 注意力是一种结合了空间注意力和通道注意力的注
练复杂度及运算量 较 高,在 部 署 在 机 械 臂 上 时 会 造 CTR3 注意力可以提高 模
意力机制,在目标检测中,
成控制单元不必要的资源浪费。因此,在 YOLOv5 型对目标 区 域 的 关 注 度,从 而 提 高 识 别 的 准 确 性。
框架的基础上引 入 Shu
ffl tV2,降 低 网 络 的 权 重
eNe CTR3 模块的结构如图 4 所示。
参数,缩小其体积,以实现机械臂目标识别网络的轻
量化改进。Shu
ffl
eNe
tV2 的网络结构如图 3 所示。

图 4 CTR3 模块结构
F
ig.
4 CTR3 modu
les
truc
tur
e

图 4 中,首先对输入进行智能分割,把一个分支
图 3 Shu
ffl
eNe
tV2 网络结构 进行一层卷积,另一个分支先进行一层卷积,再通过
F
ig.
3 Shu
ffl
eNe
tV2ne
two
rks
truc
tur
e m 模块,即一层卷积 后 通 再 捕 捉 输 入 序 列 之 间 的 依
Shu
图 3 中, ffl
eNe
tV2 是在 Shu
ffl
eNe
tV1 网络 赖关系,进行矩阵 计 算 和 标 准 化,提 高 泛 化 能 力,随
的基础上 对 b
lock 进 行 新 的 设 计。 第 一 种 分 支 中, 后进行 3×3 的卷积层,最终将 2 个分支处理的结果
首先在 Shu
ffl
eBl
ock1 模 块 中 对 输 入 的 特 征 图 在 通 进行相加并通过 1×1 的 卷 积 进 行 信 息 交 流。 在 不
道维度进行了分 支,等 比 例 划 分 为 2 组 通 道。 其 中 CTR3 模 块 通 过 计 算 通 道
同空 间 尺 度 的 特 征 图 中,

一组不做任何操作,另一组进行连续 3 层卷积操作, 注意力和空间注意 力 来 提 取 更 有 代 表 性 的 特 征,可

使得输入通道等于输出通道并带 2 层 1×1 的卷积, 以对感受视野内的 特 征 图 进 行 加 权,适 用 于 轻 量 化

中间 1 组为 3×3 的深度可分离卷积。完成卷积后, 改进,加强 对 目 标 区 域 的 关 注 度,从 而 改 善 识 别 效

与另一组通道相加,接 着 对 得 出 的 结 果 进 行 通 道 混 果。

洗,保证 2 个分支 的 特 征 组 合 与 通 道 整 合。 第 2 种 1.
5 S
imAM 模块
检测 精 度 是 机 械 臂 抓 取 成 功 的 保 障,计 算 量 和
分支中,直 接 将 左 侧 分 支 经 过 s
tri
de=2 的 3×3 深
参数量与抓取实时 性 相 关,为 进 一 步 提 升 目 标 检 测
度卷积层 和 s
tri
de=2 的 1×1 逐 点 卷 积 层,右 侧 分
精度并且避免造成参数量、计算量的上升,采用无参
支与第 1 种模块操作类似,但步长均为 2。随后将 2
注意力 S
imAM 模 块 进 行 改 进。S
imAM 是 一 种 轻
个分支各自处理后 的 结 果 进 行 通 道 数 相 加 操 作,使
量级的注意力机制,其 关 键 优 势 在 于 强 大 的 特 征 增
其通道数为输出通 道 数 的 2 倍,最 终 使 用 通 道 清 洗
强、表 征 能 力 和 高 效 的 计 算 性 能。 本 文 采 用 S
i-
操作实现不同组间通道的信息交流。
mAM 和 CTR3 两 种 注 意 力 机 制,
CTR3 对 目 标 区
1.
4 CTR3 注意力机制模块
域 的 关 注 度,而 S
imAM 在 Ne
ck 处 自 适 应 总 结
针对轻量化改进会造成网络对不同种类目标的
CTR3 给 予 重 要 关 注 度 区 域 中 目 标 之 间 的 相 似 信
检测精度下降问题,将 CTR3 注 意 力 模 块 引 入 机 械
S
息,提 取 重 要 特 征 并 调 节 权 重。 在 此 过 程 中,i-
臂目标检测网络的 框 架 中,因 为 CTR3 可 以 较 好 地
第5期 张蕾,等:基于深度学习的机械臂目标检测算法 5

mAM 不同于 CTR3 注 意 力,不 会 造 成 检 测 网 络 参 零会使网络检测效果不佳。


数量和 计 算 量 的 上 升。 故 本 文 采 用 CTR3 和 S
i- YOLOv5 中使 用 CI
oU Los
s边 框 回 归 损 失 函
mAM 进行协调配合,将检测目标的 特 征 进 行 提 取、 数,使用二元 交 叉 熵 损 失 函 数 BEC Lo
ss作 为 分 类
加权、总结、调节,使 检 测 网 络 的 准 确 性 和 效 率 达 到 损失。I
oU 即为检测目标的预测边框与真实边框的
最大化。S
imAM 模块如图 5 所示。 交叠率,可以反映 检 测 效 果,当 2 条 边 框 不 相 交 时,
oU 的值为 0,无 法 反 映 出 预 测 框 与 真 实 框 之 间 的
I
距离远近。当预测 框 和 真 实 框 大 小 相 同 时,会 出 现
重叠位置不同但I
oU 值相同的状态,此时 I
oU Lo
ss
便无法反映出 2 个预测框相交情况的区别。针对以
上问题,WI
oU 通过 考 虑 预 测 框 和 真 实 框 之 间 的 区
域来对I
oU 进行加权,解决了传统 I
oU 在评估结果
时可能存在的偏差问题 [23]。
图5 S
imAM 模块结构
具体而言,WI
oU 计算方法如下:首先计算预测
F
ig.
5 S
imAM modu
les
truc
tur
e
框和 真 实 框 的 I
oU 得 分,计 算 2 个 框 的 公 共 区 域,
S
imAM 模块 可 以 评 估 每 个 神 经 元 的 重 要 性,
即用预测框和真实框的边框中心点计算它们之间的
因此提出能量函数进行评估,对于每个神经元,具体
距离,并将这个距离作为 2 个框之间的最大距离,进
能量函数可表示为
而计算 2 个框之间的区域,根据 2 个框的重合度,计
4(
σ +λ)
2

et(
xt)= (
1) 算权重系数,该系数衡量了 2 个框之间的关系,可以
(
xt -μ) +2
2 2
σ +2λ
用于 加 权I
oU 得 分。 通 过 引 入 框 之 间 的 区 域 和 权
μ、
2
式中:xt 为神经元;
λ 为权重常数; σ 为该通道
所有神经元的平均值、方差。其中: oU(记 为 U )可 以 更 准 确 地 评 估 目 标 检
重系 数,WI
测结果,避免了传统I
oU 的偏差问题:
􀮠 1
W ×H

μ =W H ∑xi
􀪁􀪁

n
× i=1
∑w IoU(
b,g)
􀪁 􀪁􀪁

􀮡 (
2) i i i

1 (
4)
W ×H i=1
U=
∑ xi -μ)
(
2 2
σ = n
􀪁

􀮢 W ×H i=1
∑w
i=1
i

式中:x 为神经元t 的相邻神经元。


n 为物 体 框 的 数 量;bi 为 物 体 框 的 数 量;gi
式中:
1)可知,能 量 越 低,神 经 元t 与 周 围 神 经
由式(
为第i 个物体框的坐标;I bi ,
oU( gi)为第i 个 物 体
元的区别越大,重 要 性 则 越 高,因 此,神 经 元 的 重 要
的真实标注框的坐标;wi 为权重值。
性可由et(
xt)获得。最后通过式(
3)对特征进行增
在 WI
oU 中,每个物体 框 的 权 重 值 取 决 于 其 与
强处理:
真实标注框的重叠程度。重叠程度越大的物体框权
1
i
Y =Sgmo
id ☉X (
3)
E(
X) 重越高,重叠程 度 越 小 的 物 体 框 权 重 越 低。 通 过 这
式中:E (
X )为 跨 通 道 及 空 间 维 度 的 能 量 函 数 矩 种方式,WI
oU 能够更好地评估检测结果,并且在大
阵;最终输出通过将能量函数矩阵 E (
X )与输入 特 小物体不平衡的情况下也能给出更准确的评价。
征矩阵对应元素相乘并添加经过 S
igmo
id 函数抑制
2 实验环境
异常值的注意力权重来实现。
1.
6 WI
oU 损失函数 2.
1 数据集
在机 械 臂 目 标 检 测 中,损 失 函 数 与 检 测 目 标 的 本文抓取目标检测算法主要针对日常生活场
位置精度和目标分 类 相 关,其 作 用 不 仅 体 现 在 数 据 景,因此,本文数据集基于自制光学设备采集的样本
层面,而且对后 续 机 械 臂 的 抓 取 效 果 有 影 响。 以 重 进行制作,由于数据集种类多,且每个种类的图片过
i
叠度(nt
ers
ect
ionove
run
ion,
IoU)作为边界框的回 少,对后续的目标检测算法训练影响较大,故采用数
归损失函数最大的缺点是:如果 2 个框不相交,无法 据增强程序对数据集进行扩充,将图片进行裁剪、角
反映 2 个框之间的 距 离 和 重 合 性,同 时 损 失 函 数 为 度变换、模糊化调整 来 扩 充 数 据 集,最 终 包 含 2176
6 西 安 工 程 大 学 学 报 第 38 卷

张图 像 样 本,以 及 2770 个 标 注 实 例。 本 研 究 所 涉 937。以上参数设置是 为 了 提 高 训 练 效 率


因子为 0.
及的图像 标 签 包 括 了 眼 镜 (
gla
sss)、苹 果 (
e app
le)、 和精度。
bowl)、杯子(
碗( cup)、牙膏(
too
thpa
ste)、剪刀(
sci
s- 2.
3 评价指标
so
rs)等 8 个类别。最后,数据集按照 8∶1∶1 的 比 本实验的 评 价 指 标 包 括 准 确 率、召 回 率、精 确
例分为训练集、验证集和测试集。 度、平均精度均值 [24]、模型参数量、模 型 的 浮 点 运 算
2.
2 实验环境 量和实际帧率。
本实 验 采 用 实 验 室 专 用 服 务 器 进 行 训 练,搭 载
的硬 件 和 软 件 环 境 如 下:Wi
3 实验结果
ndows
10 操 作 系 统,
CPU 采用I
ntl(
e R)Xeon(
R)S
il r4314,
ve GPU 型 3.
1 消融实验
号是 NVIDIA GeFo
rc B,主机内存
eRTX309024Gi 为验证本文的改进算法对抓取目标的检测效果
63. B,编程语言为 Py
6 Gi t 7,深 度 学 习 框 架 为
hon3. 的提升,将 YOLOv5 作 为 最 初 的 对 比 网 络,逐 步 把
Py
tor
ch1.
8.1,GPU 加 速 库 为 CUDA v11.
3和 Shu
ffl tV2、
eNe SimAM,CTR3 及 WI
oU 单 独 或 者
CUDNN v8.
2.1。在 训 练 过 程 中,我 们 将 训 练 周 期 两两组合融入初始 网 络 进 行 消 融 实 验,消 融 实 验 结
设置为 100,处理量设置为 64,进 程 数 设 置 为 8。输 果如表 1 所示。符 号 “—”表 示 未 采 用 此 模 块,“√ ”
入图像大小为 640×640,初始学习率为 0.
001,动量 表示采用此模块。
表 1 消融实验
Tab.
1 Ab
lat
ionexpe
rimen
t

模块 准确率/ 精确度 精确度 @0.


5 浮点运
模型 参数量 帧率
CTR3 S
imAM WI
oU % 5/%
@0. 95/%
∶0. 算量

YOLOv5N — — — 97.
0 98.
6 71.
0 6989910 18.
1 60.
243
— — — 95.
3 96.
4 63.
9 3204054 5.
9 87.
71
√ — — 96.
3 96.
3 63.
7 4301134 6.
7 86.
95
YOLOv5N-Shu
ffl
eNe
tV2 — √ — 95.
6 97.
2 63.
8 3199202 5.
9 88.
49
— — √ 95.
2 96.
7 66.
5 3199202 5.
9 89.
28
√ √ √ 96.
5 97.
9 68.
7 4301134 6.
7 83.
00

从 表 1 可 以 看 出,
YOLOv5N-Shu
ffl
eNe
tV2 大
幅降低了骨干网络模型复杂度、运算参数和计算量,
但轻量化会造成小目标检测准确性和检测能力的下
降,尤其是多尺 度 的 处 理 能 力。 轻 量 化 后 网 络 的 准
7% ,精确度相差 2.
确率降低 1. 2% ,精确度 @0.
5∶
0. 1% ,检 测 性 能 较 差。针 对 轻 量 化 造 成
95 相 差 7.
的检测性能下降问 题,不 同 的 模 块 组 合 都 会 对 模 型
的检测效果有一定 的 提 升,本 文 改 进 网 络 的 帧 率 为
83,比原网络提高23,参数量降低2688776,浮点数
37。 同 时 检 测 准 确 率 仅 下
计算量为原 来 网 络 的 0.
降了 0. 007。 由 此 证 明:本 文 改 进 的 检 测
005 和 0.
网络性能平衡,对硬件资源的需求较低,节省开发成
本,在机械臂移动端满足实时检测需求。
图 6 本文改进网络对抓取目标的检测结果
将最 终 改 进 后 的 检 测 算 法 对 目 标 进 行 检 测,检
F
ig.
6 Thede
tec
tionr
esu
ltso
ftheimp
roved
测目标涉及单个、多个和不同摆放角度,本文改进网
ne
two
rkf
org
rasp
ingt
arge
tsi
n
络对抓取目标的检测结果如图 6 所示。 t
hisa
rti
cle
第5期 张蕾,等:基于深度学习的机械臂目标检测算法 7

从图 6 可 以 看 出,本 文 改 进 网 络 是 以 节 约 机 械
臂计算资源、提升实时检测的帧率为目的,但是改进 从表 2 可以看出,本文改进算法的帧率最高,比
后网络仍然具有极强的准确率和可靠性。应用在小 原 YOLOv5 高 出 23,比 YOLOv5L、Ef
fic
ien
t t、
de
目标检测时,由于添加了 CTR3 和 S
imAM 模块,大 SSD、
Fas
terR-CNN、 YOLOv3、
YOLOv4 相 比 分 别
幅提升了 网 络 对 目 标 的 细 节 和 首 要 特 征 的 捕 获 能 高出 78、
62、
42、
59、
29。因此 在 检 测 速 度 方 面,本 文
力,无论是单个或 多 个 目 标、不 同 姿 态 目 标、模 糊 化 算法能够满足 机 械 臂 实 时 检 测 的 要 求。 另 一 方 面,
目标均能准确检 测 出,同 时 得 益 于 WI
oU 损 失 函 数 6% ,检 测 精 度 优 于 Ef
本文 算 法 的 精 确 度 为 97. fi-
的作用,对于检测目标姿态不同的情况,网络仍然能 c
ien
tde
t与 Fa
strR-CNN,虽然略低于 YOLOv5 网
e
够精确地检测并锁定目标的空间位置和范围。 络,但相差不 到 1。 由 此 说 明 本 文 算 法 在 提 升 综 合
3.
2 对比实验 检测性能的同时兼 具 轻 量 化,在 移 动 端 设 备 上 占 用
为进 一 步 验 证 本 文 检 测 算 法 的 优 越 性,设 计 对 资源更少,实用价值高。
比实验。将本文改进网络与 Ef
fic
ien
t t、
de SSD、
Fas
- 本文选取了 100 张 物 品 图 片 进 行 测 试,部 分 测
t
erR-CNN、
YOLOv3、
YOLOv4 和 YOLOv5L 网 络 试结果如 图 7 所 示,由 上 至 下 分 别 为 本 文 改 进 后
在测试图像上进行了对比与评价,结果如表 2 所示。 YOLOv5
-Shu
ffl
eNe
tV2 算 法、
Eff
ici
ent
det
s算 法 和
表 2 对比实验 Fa
ste
rR-CNN 算法。
Tab.
2 Compa
rat
iveexpe
rimen
t
精确度/ 参数量/ 浮点计
模型 帧率
% 10
6
算量
Ef
fic
ien
tde
t 91.
7 3.
72 18.
1 21
SSD 96.
4 26.
2 62 41
Fa
ste
rR-CNN 92.
1 137 370 24
YOLOv3 95.
9 62.
0 66 54
YOLOv5L 98.
3 46.
2 108.
4 5
YOLOv5N 97.
0 6.
98 18.
1 60
本文 97.
6 4.
30 6.
7 83

图 7 抓取目标检测结果
F
ig.
7 Ther
esu
ltso
fgr
abt
het
arge
tde
tec
tion

从图 7 可以看 出,
Eff
ici
ent
det将 杯 子 和 碗 识 别 Ef
fic
ien
tde
t和 Fa
ste
rR-CNN 检 测 剪 刀、牙 膏 和 眼
Fa
出眼镜,将苹果 误 判 成 胶 带, s
terR-CNN 对 碗 和 镜时,边界框的定位效果较差,无法较准确地包裹目
胶带出现了漏检,而 本 文 算 法 因 为 添 加 了 注 意 力 机 标,与本文加入 WI oU 改 进 的 效 果 差 别 明 显。 反 观
制,增强了对小目标特征的检测能力,识别准确率高 本文算法的 检 测 结 果,不 仅 精 确 地 识 别 出 苹 果、杯
且能很好地区分和背景颜色较为接近的目标;其次, 子、碗等物品,且未 出 现 过 拟 合 问 题,保 证 轻 量 化 的
8 西 安 工 程 大 学 学 报 第 38 卷

同时具有较佳的识别和定位精度。 76
-80.
YAN L,
SHU Z B,
LIZ.
Bino
cul
ars
ter
eov
isi
ont
arge
t
4 结 语 r
ecogn
iti
onand c
apt
ure ba
sed on SURF+ RANSAC
[
J].Ma
chi
neToo
l & Hyd
rau
lis,
c 2019,
47(
9):
76-
80.
本文 针 对 机 械 臂 抓 取 目 标 检 测 问 题,提 出 了 改
(
inCh
ine
se)
进型 YOLOv5
-Shu
ffl
flene
tV2 算 法,应 用 于 机 械 臂
[
8] 林海波,魏星,张 毅,等 .基 于 AdaBoo
st算 法 的 智 能 轮
移动端设备。通过 添 加 注 意 力 及 损 失 函 数,提 升 了
J].计算机应 用 研 究,
椅机械臂抓取控制研究[ 2010,
27
小目标的检测效率 和 泛 化 能 力,在 保 证 高 精 度 检 测
(
12):
4582
-4583.
的同时降低了参数 量 和 计 算 量,提 高 了 目 标 实 时 检
LIN H B,WEIX,
ZHANG Y,
eta
l.Gr
abb
ingc
ont
rol
测的帧率,节省了机械臂的工作时间并提高了效率。 r
ese
archo
frobo
tarm moun
tedi
nte
ll
igen
t whe
elcha
ir
ba
sedonAdaBoo
sta
lgo
rihm[
t J].
App
lic
ati
onRe
sea
rch
Re
参考文献( f
erenc
es)
o
fCompu
tes,
r 2010,
27(
12):
4582
-4583.(
inCh
ine
se)
[
1] THAKAR S,RAJENDRAN P,KABIR A,
eta
l.Ma
- [
9] J
IANG H R,
ZHANG T,WACHSJP,
eta
l.Enhanc
ed
n
ipu
lat
or mo
tion p
lann
ingf
orpa
rtp
ickupandt
rans
- c
ont
rolo
fa whe
elcha
ir-moun
ted r
obo
tic man
ipu
lat
or
po
rtope
rat
ionsf
romamov
ingba
se[
J].
IEEE Tr
ans
ac- us
ing3
-D v
isi
onand mu
ltimoda
lin
ter
act
ion[
J].
Com-
t
ionson Au
toma
tionSc
ienc
eandEng
ine
erng,
i 2020,
19 pu
terVi
sionandImageUnde
rst
and
ing,
2016,
149(
C):
(
1):
191
-206. 21
-31.
[
2] HAN K,WANG Y,TIAN Q,
eta
l.Gho
st t:Mo
ne re [
10] 贾舒琦 .基 于 机 器 视 觉 的 Bax
ter机 器 人 分 拣 系 统 设
f
eat
ure
sfr
om che
apope
rat
ions[
C]//
IEEE/CVF Con
- D].银川:北方民族大学,
计与实现[ 2019.
f
erenc
eonCompu
ter Vi
sionand Pa
tte
rn Re
cogn
iti
on. [
11] ZHENG Z,WANG P,LIU W,
eta
l.Di
stanc
e-I
oU
Se
att
le:
IEEE,
2020:
1580
-1589. l
oss:
fas
terand be
tte
rle
arn
ing box r
egr
ess
ion[DB/
[
3] 李娟娟,侯志强,白玉,等 .基于空洞卷积和特 征 融 合 的 OL](
2019
-11
-19)[
2024
-03
-10].h
ttp:
//a
rxi
v.o
rg/
单阶段目标检测 算 法 [
J].空 军 工 程 大 学 学 报 (自 然 科 /1911.
abs 08287v1.
学版),
2022,
23(
1):
97-
103. [
12] KUO Y H,
KUS
IAK A.
From da
tat
obi
gda
tai
npr
o-
LIJJ,HOU Z Q,
BAIY,
eta
l.S
ing
le-
stageob
jec
tde
- duc
tionr
ese
arch:Thepa
standf
utu
ret
rends[
J].
In-
t
ect
iona
lgo
rit
hm ba
sedond
ila
tedc
onvo
lut
ionandf
ea- t
erna
tiona
lJou
rna
lofPr
oduc
tion Re
sea
rch,
2019,
57
t
uref
uson[
i J].
Jou
rna
lofAi
rFo
rceEng
ine
eri
ng Un
i- (
15/16):
4828
-4853.
ve
rsi
ty (Na
tur
alSc
ienc
e Ed
iton),
i 2022,
23(
1):
97- [
13] ANTARI
SS, S D,
RAFAILIDI GIRDZI
JAUSKASS.
103.(
inCh
ine
se) Knowl
edged
ist
il
lat
ion on neu
ralne
two
rksf
ore
vol
-
[
4] 姚三坤,刘 明 .ORB 特 征 点 提 取 和 匹 配 的 研 究 [
J].电 v
ingg
raphs[
J].
Soc
ialNe
two
rk Ana
lys
isand Mi
ning,
2023,
子设计工程, 31(
2):
43-
47. 2021,
11(
1):
100.
YAO S K,
LIU M.ORBf
eat
urepo
intex
tra
cti
onand [
14] Pa
rk S.Re
al-
time ob
jec
tgr
asp
ing us
ingimp
roved
ma
tch
ing s
tudy [
J].El
ect
ron
ic De
sign Eng
ine
erng,
i gene
rat
iveg
rasp
ingc
onvo
lut
iona
lneu
ralne
two
rk[
D].
2023,
31(
2):
4347.(
- inCh
ine
se) 2022.
[
5] 渠逸,汪 诚,余 嘉 博,等 .基 于 YOLOv5 的 表 面 缺 陷 检 [
15] 林秀川 .基于深度学习的零件识别和机器人 抓 取 研 究
J].空 军 工 程 大 学 学 报,
测优化算法[ 2023,
24(
5):
80- [
D].哈尔滨:哈尔滨工业大学,
2019.
87. [
16] QIU S,
LODDER D, HGG-CNN:
DU FF. Thegene
r-
QU Y,WANG C,YU JB,
eta
l.Op
timi
zeda
lgo
rit
hm a
tiono
ftheop
tima
lrobo
ticg
rasppo
seba
sedonv
isi
on
f
orsu
rfa
ce de
fec
t de
tec
tion ba
sed on YOLOv5[
J]. [
J].I
nte
ll
igen
t Au
toma
tion and So
ft Compu
ting,
J
our
nalo
fAi
rFo
rceEng
ine
eri
ng Un
ive
rsi
ty,
2023,
24 2020,
26(
6):
1517
-1529.
(
5):
8087.(
- inCh
ine
se) [
17] 闫 彬,樊 攀,王 美 茸,等 .基 于 改 进 YOLOv5m 的 采 摘
[
6] 苗长云,郭盈 辉,刘 意 .基 于 机 器 视 觉 的 带 式 输 送 机 托 机器人 苹 果 采 摘 方 式 实 时 识 别 [
J].农 业 机 械 学 报,
J].天 津 工 业 大 学 学 报,
辊故障检测[ 2023,
42(
3):
56- 2022,
53(
9):
28-
38.
63. YAN B,
FAN P,WANG M R,
eta
l.Re
al-
timeapp
le
MIAO C Y,
GUO Y H,
LIU Y.
Fau
ltde
tec
tiono
fbe
lt i
pck
ingpa
tte
rnr
ecogn
iti
onf
orp
ick
ingr
obo
tba
sedon
c
onveyo
rro
lle
rba
sedon ma
chi
nev
ison[
i J].
Jou
rna
lof imp
roved YOLOv5m[
J].
Trans
act
ionso
ftheCh
ine
se
Ti
angong Un
ive
rsi
ty,
2023,
42(
3):
5663.(
- inCh
ine
se) So
cie
tyf
or Ag
ricu
ltu
ral Ma
chi
ney,
r 2022,
53(
9):
28-
[
7] 严亮,舒志兵,李 照 .基 于 SURF+RANSAC 的 双 目 立 38.(
inCh
ine
se)
J].机床与液 压,
体视觉目标识别与抓取[ 2019,
47(
9): [
18] ZHANG H,
LIANG Z,
LIC,
eta
l.Ap
rac
tic
alr
obo
tic
第5期 张蕾,等:基于深度学习的机械臂目标检测算法 9

r
gasp
ing me
thod by us
ing6
-D po
see
stima
tion wi
th [
22] ZHANG Y X,
GAO Q,
SONG Y,
eta
l.Imp
lemen
ta-
r
pot
ect
ivec
orr
ect
ion[
J].
IEEE Tr
ans
act
ionsonI
ndus
- t
iono
fanSSVEP
-ba
sedi
nte
ll
igen
thomes
erv
icer
obo
t
t
ria
lEl
ect
ron
ics,
2021,
69(
4):
3876
-3886. sy
stem[
J].Te
chno
logy and He
alt
h Ca
re,2021,29
[
19] TSAIY T,
CHEN K Y.
Theau
tonomousc
ont
rolo
f (
3):
541
-556.
t
heSe
rvi
ce-Or
ien
tedr
obo
tarmsba
sedont
hea
rti
fic
ial [
23] CHO YJ.We
igh
tedi
nte
rse
cti
onove
run
ion (
wIoU):
i
nte
ll
igenc
eob
jec
tiden
tif
ying t
echno
logy[C]
//2019 A newe
val
uat
ion me
tri
cfo
rimages
egmen
tat
ion[
DB/
I
nte
rna
tiona
lCon
fer
enc
eonFu
zzyThe
oryandI
tsAp
- OL](
2021
-06
-21)[
2024
-03
-10].h
ttp:
//a
rxi
v.o
rg/
l
pic
atons (
i iFUZZY).New Ta
ipe
iCi
ty:
IEEE,
2019: /2107.
abs 09858v2.
110
-113. [
24] 朱磊,赵涵,王伟丽 .基于新型特征增强与融 合 的 雾 天
[
20] ZHU S G,DU J P,REN N.A nove
lsimp
lev
isua
l 目标检测方 法 [
J].西 安 工 程 大 学 学 报,
2023,
37(
6):
t
rack
inga
lgo
rit
hm ba
sedonha
shi
ngandde
epl
ear
n- 106
-113.
ng[
i J].
Chi
nes
eJou
rna
lofEl
ect
ron
ics,
2017,
26(
5): ZHU L,
ZHAO H,WANG W L.
Anob
jec
tde
tec
tion
1073
-1078. me
thodi
nfoggy we
athe
rba
sedon nove
lfe
atu
reen
-
[
21] J
IAO L,
ZHANG F,
LIU F,
eta
l.A su
rveyo
fde
ep hanc
emen
tandf
uson[
i J].
Jou
rna
lofXi’
an Po
lyt
ech
-
l
ear
ning
-ba
sed ob
jec
t de
tec
tion [
J].IEEE Ac
ces,
s n
icUn
ive
rsi
ty,
2023,
37(
6):
106
-113.(
inCh
ine
se)
2019,
7(1):
128837
-128868. 责任编辑:孟 超

You might also like