Download as pdf or txt
Download as pdf or txt
You are on page 1of 8

第 43 卷 第 5 期 中国农机化学报 Vo

l.43 No. 5
20
120年 5月
42 J
our
nalo 中国农机化学报
fChi
nes
eAg
ricu
ltu
ralMe
chan
iza
tion May2.
022
2 年
022

DOI:10.
13733/
jj.
cam.

ssn.
2095-5553.
2022.
05.
021

基于卷积神经网络的农机图像自动识别研究 *
雷雪梅1, 张光强2, 姚旗3, 刘伟渭4, 邱帅5
1.四川化工职业技术学院智能制造学院,四川泸州,
( 646000;2.国家农业智能装备工程技术研究中心,
100089;3.西北农林科技大学农学院,陕西咸阳,
北京市, 712100;4.西南交通大学机械工程学院,
610031;5.西南大学人工智能学院,重庆市,
成都市, 400715)

摘要:基于农机物联网技术的农机作业监管系统通过采集机 具 图 像 来 判 断 农 业 机 具 类 型 和 作 业 状 态 ,但 是 由 于 图 像 数 据
量大,人工抽查方式工作量大、效率低,难以满足监管识别 需 求。构 建 包 括 播 种 机、翻 转 犁、起 垄 机、深 松 机 和 旋 耕 机 等 类
型的图像数据集,并在 Goog
le公司的深度学习平台 Tens
orf
low 下对 机 具 图 像 数 据 集 进 行 标 注 和 图 像 预 处 理 。 设 计 针 对
实际监管需求和图像特点的卷积神经网络模型,并通过减少过拟合与提高训练效率对模型进行优化。模型训练 试 验 结 果
5% ,相 同 试 验 条 件 下,
显示:本文设计的机具识别网络在验证集上的识别率达到 98. t-5 模 型 在 验 证 集 上 的 识 别 率
LeNe
为 81% ,
ResNe 8% ,但是 在 识 别 效 率 上,
t-50 模型在验证集上的识别率为 98. Re t-50 模 型 完 成 训 练 需 要 近 60h,识
sNe
别一张图片需要 0.
3s,而本文设计的机具识别网络完成训练仅需要 30h,识别一张图片只需要 0.
1s。为进一步验证模型
的实用性,选取 200 张图像进行测试,测得模型对各类机具图像的精确度平均值为 98.
47% ,召回率平均值为 98.
37% ,
F1-

soe平均值为 98.
r 41% ,表明模型具有良好的鲁棒性,实用性良好。
关键词:农机机具;卷积神经网络;图像识别;深度学习
中图分类号:
S22 文献标识码:
A 文章编号:
2095-5553 (
2022)05-0140-08

雷雪梅,张光强,姚旗,刘伟渭,邱帅 .基于卷积神经网络的农机图像自动识别研究[
J].中国农机化学报,2022,43(
5):
140-147
Le
iXuemei,Zhang Guangqiang,Yao Qi,Liu We i,Qi
iwe u Shua
i.Rese
arch on automati
cr ecogni
tion o
fagr
icu
ltur
al
mach
ineimageba
sedonc onvolu
tiona
lneu
ralne
twok[
r J].
JournalofCh
inese Agr
icul
tural Mechani
zat
ion,2022,43(5):
140-147

计 [10-11]、农 机 路 径 规 划 [12]等 都 改 变 了 传 统 的 生 产 方
0 引言
式,提高了工作 效 率。 基 于 卷 积 神 经 网 络 的 图 像 识 别
目前,以通讯网络和互联网为基础,通过卫 星 定 位 算法 [13-14]是以视觉系统的特征分层机制为 依 据,模 拟
装置、农机作业工况传感器、图像传感器等感知农机 实 神经元之间的连 接 来 自 动 提 取 图 像 特 征,通 过 多 层 迭
时运行状态,实 现 对 农 机 装 备 集 群 作业的智能化识别、 代、特征抽象、最终实现分类识别。经典的卷积神 经 网
定位、
监测和管理的物联网技术得到了快速发展和实践 络结 构,如 LeNe [ ]
t15 、Al t16 等,由 卷 积 层、池 化
exNe
[ ]

应用 。为了鼓励农户实施农业机械化作业,国家在
1-2]

层、全连接层组 成。 卷 积 层 使 用 不 同 的 卷 积 核 提 取 多
多个省份相继展开农机作业补贴。然而在政策实施过程 种图像特征,池 化 层 在 保 留 主 要 信 息 的 同 时 对 特 征 图
中,
存在农机作业质量层次不齐、虚报作业面积、虚报农 进行降维处理,通过多次的卷积—池化连接,提取的图
机补贴等情况,
为了减少这种情况的出现,政府相关部门 像特征从具体的 边 缘 信 息 到 抽 象 的 语 义 信 息,再 经 过
通过无线通讯和网络技术实现监管农机作业质量 [
3-5]
。 全连接层的迭代,实现分类识别 [17-19]。卷 积 神 经 网 络
利用图像识别技术自动识别农机机具类型和作业
其中, 算法不需要 手 工 提 取 特 征,在 图 像 识 别 [20-21]、语 音 识
状态,能够降低人工抽检强度、加强监管力度、提高系统 别 [22-23]、自然语 言 处 理 [24-25]等 方 向 已 经 有 了 非 常 好
智能化水平,是农机作业监管系统的关键技术之一。 的应用效果。彭明 霞 等 [26]采 用 Fa
strR-CNN 方 法

图像识别技术在农业科技方面有着非常广泛的应 对棉花杂草进行 了 识 别,其 平 均 目 标 识 别 准 确 率 达 到
用,如 病 虫 害 识 别 [
6-7]
、果 实 品 种 识 别 [
8-9]
、产 量 估 了 95.
5% 。卢伟等 27 采用卷积神经网络方法检测拖拉
[ ]

2021 年 10 月 30 日
收稿日期: 2022 年 3 月 25 日
修回日期:
* 基金项目:中国博士后基金面上资助( 2020M682506);四川省科技计划项目(
19YYJC0513);国家自然科学青年基金( 51705432)
第一作者:雷雪梅,女,1991 年生,四川泸州人,讲师;研究方向为自动化及控制工程。E-ma l:1392958667@qq.
i com
第5期 雷雪梅 等:基于卷积神经网络的农机图像自动识别研究 141

机驾驶员面部特征,用于识别驾驶员的疲劳状态,其 模 农机机具图像数据集。
型识别准确率为 98.
9% 。孔庆好等

以拖拉机运行速
28]
3 农机机具图像预处理
1.
度与发动机转速等信息为基础,采用卷积神经网络对拖 与其他研究领 域 的 图 像 数 据 相 比 较,农 机 作 业 环
拉机工况进行了识别检测,其准确率可 以 达 到 93.
3% 。 境较 为 恶 劣,获 取 的 机 具 图 像 质 量 较 差、图 像 背 景 复
然而采用卷积神经网络对农机图像识别报道文献较少。 杂、图像拍摄角 度 存 在 差 异。 图 像 预 处 理 不 仅 可 以 消
本文采用基于 卷 积 神 经 网 络 的 图 像 识 别 技 术,研 除背景、颜色及尺寸差异等噪声的影响,还能 减少网 络
究大量农机机具图像的自动分类方法。 对农机机具图 训练计算量,提 高 算 法 效 率 和 网 络 准 确 率。 本 文 针 对
像进行预处理,构建农机机具图像标注数据集,设计卷 农机机具图像存在的问题,分别进行了图像 裁 剪、图像
积神经网络模型,实现农机机具图像的自动识别。 色彩调整和运动模糊消除 3 个方面的图像预处理。
1 图像裁剪
3.
1.
1 构建农机机具图像标注数据集
原始机具图像是由不同地区的不同农机作 业监 控
1 图像收集与整理
1. 装置拍摄获得,因 此 存 在 图 像 尺 寸 差 异。 由 于 神 经 网
本文以农机机 具 图 像 作 为 识 别 对 象,在 农 机 作 业 络采用固定的输 入 节 点,将 机 具 图 像 输 入 给 神 经 网 络
n拍摄一次作业机具图
过程中,车载摄像 头 每 隔 2 mi 之前,需要统一 图 像 尺 寸。 本 文 采 用 双 线 性 插 值 法 将
像并通过 GPRS 无线网络上传到监管系统中。通过分 机具图像裁剪为 64 像素 ×64 像素。 双线性 插 值法 的
析农业机具作业 图 像,整 理 出 多 种 作 业 背 景 下 的 播 种 核心思想是在 x 与 y 方 向 分 别 进 行 一 次 线 性 插 值 计
机、翻转犁、起垄机、深 松 机 和 旋 耕 机 5 种 类 型 的 常 用 算,相比于最邻 近 插 值 的 粗 糙 以 及 双 立 方 插 值 的 计 算
机具图像。构 建 了 容 量 为 73970 张 的 农 机 机 具 图 像 量过大,该算法处理效果较稳定、计算难度低。
数据集,其 中,
55000 张 图 像 用 于 构 建 训 练 集,
18970 2 图像色彩调整
3.
1.
张图像用于构 建 验 证 集,二 者 互 相 独 立 且 无 重 叠。 每 在训练农机机 具 图 像 识 别 网 络 时,通 过 调 整 机 具
种类型的机具图像数量均按照收集的原始图像比例设 图像的色相、亮度、对 比 度 等 属 性,能 够 使 训 练 后 的 网
置,同时为满足网络输入要求,所有图像尺寸均转换为 络尽 可 能 少 地 受 到 无 关 因 素 的 影 响。 本 文 采 用
64 像素 ×64 像素大小,表 1 为数据集中不同机具类型 Tenso
rfow API提供的 图 像 预 处 理 函 数 br
l igh
t s函
ne
图像数量的具体分布情况。 数对原始机具 图 像 进 行 处 理。 经 过 图 像 预 处 理,局 部
表 1 农机机具图像数量分布
a))、色 相 差 的 图 像 (图 1(
亮度偏高的图像(图 1( b))、
Tab.
1 Quan
tiyd
t i
str
ibu
tiono
fag
ricu
ltu
ralma
chi
neyimage

对比度低的图像(图 1(
c))等,被 恢 复 为 清 晰 的 农 机 机
样本尺寸(宽 × 高) d),图 1(
具图像(图 1( e),图 1(
f))。
机具类型 训练集/张 验证集/张
/像素 × 像素

播种机 20000 8000 64×64


翻转犁 10000 3870 64×64
起垄机 6000 1500 64×64
深松机 6000 1500 64×64
旋耕机 13000 4100 64×64
合计 55000 18970 64×64

2 标注数据集
1. 图 1 机具图像调整色彩前后对比图
卷积神经网络 算 法 属 于 监 督 分 类,需 要 对 大 量 数 F
ig.
1 Compar
isonofmach
ineandtoo
limage
sbe
for
eand
据集进行标 注。 本 研 究 采 用 Tenso
rfow 平 台 对 农 机
l a
fte
rco
loradus
j tmen

机具图像数据 集 进 行 标 注。 首 先,将 整 理 好 的 训 练 集 3 运动模糊消除


3.
1.
和验证集存放在 两 个 文 件 夹 下,每 个 文 件 夹 包 含 前 述 农机机具图像是在农机作业过程中由车载 摄像 头
的 5 种图像类型,即播种机、翻转 犁、起 垄 机、深 松 机 和 拍摄获得,因此 经 常 会 出 现 运 动 模 糊 的 机 具 图 像。 所
旋耕 机,并 分 别 建 立 对 应 的 文 件 夹 标 签。 然 后,使 用 谓运动模糊是指拍摄相机和被摄景物之间存在 相对 运

Tns
orf
low 的 内置函数将每张图片转换成固定长度的 动而造成的图像模糊。模糊图像的处理方法主 要有 图
二进制 数 据,其 中 第 一 个 字 节 为 图 像 标 签,剩 余 64× 像超分辨率重构、图 像 增 强、图 像 复 原 3 种。 其 中,图
64×3字节是图像信息。最终,本文将训练集和验证集 像复原是根据 图 像 退 化 的 先 验 知 识 建 立 一 个 退 化 型,
分别转换为两个 独 立 的 二 进 制 文 件,得 到 完 成 标 注 的 以该网络为基础,采 用 各 种 逆 退 化 处 理 算 法 逐 步 进 行
142 中国农机化学报 2022 年

恢复,从而达到改善图像质量的目的。 本文采用了图像复原方法中的维纳滤波算法 对 运
动模糊机具图像进行预处理,将运动模糊的播 种机(图
a))、深松 机 (图 2(
2( b))、翻 转 犁 (图 2(
c)),处 理 为 清
晰的农机机具图像(图 2 d 图 2 e 图 2(
( ), ( ), f))。

2 农机机具图像自动识别算法

1 卷积神经网络结构
2.
本文设 计 的 卷 积 神 经 网 络 结 构 如 图 3 所 示,共 7
层,包含 4 个卷积层和 3 个全连接层。 其中,前 2 个卷
图 2 机具图像去除运动模糊前后对比图

Fg.
2 Compa
ris
onofmachi
neandtoo
limage
sbe
for
e 积 层 后 面 连 接 池 化 层,最 后 1 个 全 连 接 层 使 用
andaft
err
emovi
ng mot
ionblu
r So
ftmax 函数做分类。

图 3 卷积神经网络结构

Fg.
3 S
truc
tur
eofc
onvo
lut
iona
lneu
ralne
two
rk
若 Xi 表示卷积神经网络的第i 层特征图,网络输 128 的卷积 核,对 C3 层 输 出 特 征 图 做 卷 积,得 到 256
入 X0 为 64×64×3 的原始图像,则卷积层 Xi 的计算 个 14×14 的特征图,输出给 F5 层。F5 层采 用 384 个
过程可描述为 神经元,对 256 个 14×14 的 特 征 图 进 行 全 连 接 处 理;

Xi =f(∑Xi-1 ⊗ Wi +bi) (
1) F6 层采用 192 个神经元,对 256 个 神 经 元 进 行 全 连 接

处理; F7 层使用 so
ftmax 函 数 将 特 征 向 量 处 理 结 果 分
其中,
Wi 表 示 第i 层 卷 积 核 的 权 值 向 量 ;运 算 符
为 5 类。
号 ⊗ 代 表 卷 积 核 与 第i 层 图 像 或 特 征 图 进 行 卷 积 操
表 2 卷积神经网络参数设计
作 ,卷 积 的 结 果 与 神 经 元 偏 移 量 bi 相 加 ;然 后 通 过 非 Tab.
2 De
signofconvo
lut
ionneu
ralne
two
rkpa
rame
ter

x)得 到 第i 层 的 特 征 图 ,本 文 卷
线 性 的 激 励 函 数 f( 详细参数
积 神 经 网 络 中 选 用 Re 层号 类别
lu函 数 作 为 非 线 性 激 励 函 数, 特征图数 卷积核大小 步长
它 具 有 收 敛 性 能 好 、计 算 复 杂 度 低 等 特 点 。 常 用 的
C1 卷积层 1 32 5×5 1
池 化 方 式 有 平 均 池 化 和 最 大 池 化 ,本 研 究 采 用 了 最
S1 池化层 1 32 3×3 2
大 池 化 法 。 若 Xi 是 池 化 层 ,则 Xi 的 计 算 过 程 可 描
C2 卷积层 2 64 5×5 1
述为 S2 池化层 2 64 3×3 2
Xi =Maxpo
olng(
i Xi-1) (
2) C3 卷积层 3 128 5×5 1
表 2 为卷积神经网络详细设计参数。 C4 卷积层 4 256 5×5 1

C1 层采用了 32 个 5×5×3 的 卷 积 核,步 长 为 1, F5 全连接层 1 神经元个数:


384
F6 全连接层 2 神经元个数:
192
对输 入 图 像 卷 积 之 后 提 取 出 32 种 特 征,得 到 32 个
F7 So
ftmax 层 神经元个数:

60×60的特征图,再经过 S1 层得到 32 个 29×29 的特
征图。C2 层有 64 个 5×5×32 的 卷 积 核,对 第 S1 层 2 减少过拟合
2.
输出特征图做卷积,得到 64 个 29×29 的特征图,再经 卷积神经网络 模 型 对 训 练 集 识 别 率 很 高,而 对 于
过 S2 层得到 64 个 14×14 的特征图。C3 层有 128 个 验证集识别率很 低 的 情 况 称 为 过 拟 合,通 常 是 由 于 模
5×5×64 的卷积核,对第 S2 层 输 出 特 征 图 做 卷 积,得 型过于复杂,训练数据不足或训练集图像分布 不 均匀。
到 128 个 14×14 的特 征 图;
C4 层 使 用 256 个 5×5× 本研究采用了增强数据集和模型正则化的方法来 减 少
第5期 雷雪梅 等:基于卷积神经网络的农机图像自动识别研究 143

过拟合。 据归一 化 到 0~1 之 间,可 以 简 化 计 算,加 快 网 络 收 敛


1 增强数据集
2.
2. 性能,提高网络 计 算 精 度。 归 一 化 方 法 有 离 差 归 一 化
在本研究中,采用了 2 种方法增强数据集:增加数 和标准差归一化,本研究中使用标准差归一化
据集的数量和提高数据集的丰富性。 数据集的丰富性 x -μ
x* = (
5)
能够保证模型对不同背景条件的机具图像都有良好的 σ
识别能力。通过采用随机裁剪和垂直翻转的方法来增 式中:μ———所有像素的均值;
大数据集的数量,具体方法如下:首先,在 64×64 大小 σ———所有像素的标准差。
的图像中心位置和 4 个边角等 5 个区域分别提取 60× 归一化 后 的 图 像 满 足 均 值 为 0,标 准 差 为 1 的 标
60 区域用作训 练,这 样 将 数 据 集 扩 大 了 5 倍;由 于 设 准正态分布。神经网络是以样本在事件中的统 计概 率
备安装方式的不 同,导 致 有 部 分 机 具 图 像 是 上 下 颠 倒 来进行训练和预测的,将数据归一化到 0~1 之 间统计
的,为了平衡这部 分 数 据,提 高 模 型 对 其 识 别 能 力,对 概率分布,使得样本所 有 像 素 的 均 值 为 0,并 且 其 标 准
所有图像进行垂直翻转,在保证数据丰富性的同时,又 差一致,可以提高网络学习速度,加快网络收敛。
将数据集扩大了 2 倍。 2 多 GPU 训练
3.
2.
2 模型正则化
2.
2. 本文设计的机具识别网络模型需要训练的 参数 有
正则化是降低 模 型 复 杂 度 的 一 种 方 法,通 过 给 损 2×105 ,处理完所有图片需要进行上亿次加乘 运 算,传
失函数加上约束 项 来 对 参 数 引 入 先 验 分 布,控 制 损 失 统的 CPU 单线处理需要 4~5d 的时间才能使模 型 达
函数的优化倾向于选择较小参数的方向。 本文所用的 到收敛,效率太低 不 利 于 修 改 参 数 和 调 整 网 络。GPU
L2 正则化就是在损失函数后面加一个正则化 项,得 到 计算模块专为处理大规模、高密度浮点数据 而 设 计,其
新的损失函数 带宽大、数据并行计算的优势极大地提高了 运 算速度,
λ 减少了运算时间。本 文 采 用 2 块 GPU 并 行 运 算 的 方
C =C0 + ω


3)
2n ∑
ω 式训练网络模型,如图 4 所示。
式中:C0 ———原始的代价函数;
λ
ω ———正则化项。

2n∑
ω

所有参数 ω 平 方 和 除 以 训 练 集 样 本 大 小n,再 乘
以正则系数λ,λ 的作用即是权衡正则项与原始代价函
数C0 的比重。按照梯度下降法更新参数的规则,先对
新的损失函数求导,然后得到参数更新值
∂C ∂C0
′=ω -η
ω
∂ω
=ω - η (
∂ω
λ
+η ω
n )
∂C0
(λ
=ω 1-η -η
n )∂ω
(4) 图 4 GPU 计算模型

Fg.
4 ModelofGPUca
lcu
lat
ion
4)中可以看出,正则化后的损失函数在更新
从式(
卷积神经网络的训练目标是最小化网络的 损失 函
λ
( )
参数时有一个衰减因子 1-η < 1,因此 L2 正则化
n 数。原始图像经 过 前 向 传 输 后 得 到 预 测 值,使 用 平 方
也称为权重衰 减。 权 重 衰 减 有 2 个 作 用:一 是 减 少 了 误差 代 价 函 数 计 算 预 测 值 与 实 际 值 之 间 的 差 异,第 n
不重要特征的影 响,使 模 型 不 至 于 学 习 过 多 特 征 而 导 个样本的误差函数可表示为

致泛化能力差;二是在梯度下降的同时,从整体上保证 1 n n 2
En (
W,b)= ∑(
t k -yk ) (
6)
了模型选择较小的参数,降低了模型复杂度。 2 k=1

3 提高模型训练效率
2. 式中:
tkn ———第 n 个样本对应标签的第k 维;
yk ———第 n 个 样 本 对 应 的 网 络 输 出 的 第 k 个

1 归一化图像
3.
2.
图像归一化是计算机视觉中对数据集预处理的常 输出;
用方法之一,主 要 利 用 图 像 的 不 变 矩 寻 找 一 组 参 数 使 c———分类数目。
其能够消除其他 变 换 函 数 对 图 像 变 换 的 影 响,也 就 是 训练过程中,使用 随 机 梯 度 下 降 方 法 将 l
oss值 反
转换成唯一的标准形式来增强图像的仿射变换。 在卷 向传播,逐层更新网络参数。参数更新规则为
积神经网络算法中,将像素值为 0~255 的 UNIT 型数
144 中国农机化学报 2022 年

∂E (
W, b) 1 ROC 曲线与 AUC
2.
3.
Wi =Wi -η (
7)
∂Wi ROC 曲 线 的 横 坐 标 为 假 阳 性 率 (
Fal
se Pos
iti
ve
∂E (
W, b)
( Ra
te,FPR ),纵坐标为真阳性率( TruePos
iti
veRa e,

bi =bi -η 8)
bi
∂ TPR ),该曲线下各 部 分 的 面 积 求 和 即 为 AUC。 在 图
式中: η ———学习率。
ROC 曲线能 够 尽 量 降 低 不 同
像识别评价精度指标中,
01,一 次 训 练 的 数 据 集 大
将初始学习率η 设 为 0.
测试集带来的干扰,更加客观地衡量网络本身的性能。
小(
bat
chs
ize)为 128,以 0 均值,标准差 0.
01 的 高 斯 分
FPR 和 TPR 的计算方法分别为
布初始化每层 权 重 Wi ,神 经 元 偏 置 量 bi 的 初 始 值 为
FP
FPR = (
9)
0。以 8 个 线 程 将 数 据 分 批、独 立 地 分 布 在 2 块 GPU N
上,
2 个 GPU 共享模型参数,同步运算。 由于 GPU 之 TP
TPR = 10)

间传输数据比较慢,计算 得 到 的 参 数 全 部 存 储 在 CPU P
上,并在 CPU 上更新所有参数。 式中:P ———真实的正样本的数量;
N ———真实的负样本的数量;
3 试验与分析
TP ———P 个正样本中被分类器预测为正样本的
1 模型训练试验与结果分析
3. 个数;
本 文 网 络 模 型 在 2 块 NVIDIA GeFo
rce GTX FP ———N 个负 样 本 中 被 分 类 器 预 测 为 正 样 本
1080GPU 上训练,迭 代 100000 次 之 后,损 失 函 数 收 个数。
敛到 0.01。将本文所建的农机机具图像标注数据集在 AUC 可通过对 ROC 曲线下各部分的面积求和得
t-5 和 Re
LeNe t-50 上 分 别 进 行 训 练,与 本 文 所
sNe 到,且 ROC 曲 线 是 由 坐 标 为 {(x1 ,
y1),( y2),…,
x2 ,
用机具识别网 络 进 行 对 比,
3个网络的参数配置及训 ( ym )}的点按顺序连接而形成,则 AUC 的计算为
xm ,
练结果见表 3。 1
m-1

表 3 3 种卷积神经网络性能比较
AUC =
2 ∑ (x
i=1
i+1 -xi)·(
yi +yi+1) 11)

Tab.
3 Pe
rfo
rmanc
ecompa
ris
ono
fthr
eec
onvo
lut
iona
l 式中:
xi 、 FPR )、真 阳 性 率
yi ———上 述 假 阳 性 率 (
neu
ralne
two
rks
TPR )取值。

单张图
输入图像 训练时 识别准 ROC 曲线经常作为二分类 最 重 要 的 指 标 之 一,对
网络名称 层数 片识别
大小 间/h 确率/% 于本文多分类,将 m 个 测 试 样 本 (
效率/s n 个类
m =2600),
别(
n=13)。在训练完成后,计算出每个测试样本在各
LeNe
t-5 5 32×32 6 81 0.

Re
sNe
t-50 8 224×224 58 98.
8 0.
3 类别下的概率,得到一个[m,n]形状的矩阵 Q ,每一行
本文卷积神经网络 7 64×64 30 98.
5 0.
1 按类别标签排序,表 示 一 个 测 试 样 本 在 各 类 别 下 概 率
从 表 3 的 对 比 结 果 分 析: t-5 结 构 简 单,网
LeNe 值。相应地,将每 个 测 试 样 本 的 类 别 转 换 为 类 似 二 进
络层数少,输入图 像 小,所 需 训 练 时 间 最 少,但 是 其 识 制的形式,每个位置按标签排序,用来标记是否属 于 对
别准 确 率 较 低,仅 有 81% ,无 法 满 足 实 际 应 用 需 求; 应的类别,由此也可以获得一个[
m,n]的标 签 矩 阵 L 。
Re
sNet-50 网 络 和 本 文 卷 积 神 经 网 络 识 别 准 确 率 均 每种类别下,都可以得到 m 个测 试 样 本 为 该 类 别 的 概
超过 98% ,满足实际应用需求,但 是 Re sNet-50 网 络 率(矩阵 Q 中的列)。所以,根据概率矩阵 Q 和标签矩
比较复杂,参数较多,其训练时间需要 58h,相比之下, 阵L 中对应的每一列,可 以 计 算 出 各 个 阈 值 下 的 假 阳
本文的机具识别网络训练时间比较少,只有 30h,并且 性率 ( TPR ),从 而 绘 制 出 一 条
FPR )和 真 阳 性 率 (
测试一张图片的效率也高于 Re t-50。 综 上 所 述,
sNe ROC 曲线。这样总共可以绘制出 n 条 ROC 曲线。 最
从网络结构与参数、训练时间、识别准确率及效率上来 后对 n 条 ROC 曲线取平 均,得 到 最 终 的 ROC 曲 线 和
说,本文设计的网络结构适用于农机机具图像识别,可 AUC。本次农机机具识 别 网 络 测 试 试 验 中,农 机 机 具
满足实际监管需求。 图像分类的 ROC 曲线与 AUC 如图 5 所示。
2 模型测试试验与结果分析
3. 在图 5 中,试验结果 表 明 ROC 曲 线 下 的 AUC 均
为了描述网络的 实 际 应 用 性 能,本 文 从 2021 年 9 值为 92% ,且 曲 线 靠 近 左 上 角,说 明 本 文 的 机 具 识 别
月江苏省农机深松作业图像中挑选出 5 种机具类型图 网络分类的真阳性率 很 高,分 类 错 误 较 少,该 网 络 对 5
像各 200 张对模型进行测试,并从召回率、鲁棒性 2 个 种机具图像的分类能力符合实际 应 用 需 求;同 时 ROC
方面对模型进行评价。 曲线是光滑的,说 明 农 机 机 具 识 别 网 络 训 练 后 没 有 出
第5期 雷雪梅 等:基于卷积神经网络的农机图像自动识别研究 145

现太大的过拟合。 37% ,说 明 网 络 对 正 样 本 的
强;召回率的平 均 值 为 98.
识别能力很强;
F1-s
cor 41% ,说 明 分
e 的 平 均 值 为 98.
类网络对大部分机具类型、作业场景、非机具图 像以 及
光影 干 扰 等 都 能 准 确 识 别,具 有 良 好 的 鲁 棒 性、稳 健
性、实用性较强,满足实际应用的要求。
表 5 精确度、召回率和 F1 值
Tab.
5 Pre
cis
ion,r
eca
llandF1-s
cor
e %

指标 A B C D E 平均值

P 100 96.
94 97.
47 98.
99 98.
97 98.
47
R 97.
95 97.
96 98.
99 99.
50 97.
44 98.
37
图 5 农机机具图像 ROC 曲线与 AUC 图 F1-s
cor
e 98.
96 97.
45 98.
22 99.
24 98.
20 98.
41

Fg.
5 ROCcu
rveandAUC di
agram o
fag
ricu
ltu
ral
mach
ine
ryandtoo
ls 3 讨论
2.
3.
2.
3.2 混淆矩阵和 F1-s
cor
e 识别错误的机具图像如图 6 所示,分析原因如下。
在图像识别评 价 精 度 中,混 淆 矩 阵 主 要 用 于 比 较 1)采集图像时,由于摄 像 头 倾 斜 等 原 因 只 拍 到 机
真实 结 果 和 实 际 预 测 值。 若 M [
t,p]表 示 混 淆 矩 阵, 具的一部分导致识别错误,图 6( f)和图 6( g)将 翻 转 犁
第t 行代表真实 类 别,每 一 行 的 总 数 代 表 该 类 别 的 真 识别为起垄机,图 6(
o)将旋耕机识别为深松机。
实数量。第 p 列代表 预 测 类 别,每 一 列 的 总 数 表 示 预 2)机具表 面 存 在 土 壤、秸 秆、人、草 等,遮 挡 了 大
测为该类别的数量;矩阵中的值,实际为t 类的样本被 部分机具,图 6(
l)和 图 6(m)将 旋 耕 机 识 别 为 翻 转 犁,
判定为p 类的数量。 图 6(
k)将深松机识别为起垄机。
F1-sco
re用于评价 分 类 网 络 性 能,它 考 虑 测 试 的 3)部分机具外形相似,如图 6(
k)将深松机识别为
精确 度 P 和 召 回 率 R 来 计 算 分 数,公 式 如 式 (
12) 翻转犁,该类型的深松机和翻转犁均为三角 框 架形式,
所示。 差别只在其安装的深松铲。
2×P ×R 4)数据集 收 集 不 够 全 面,如 播 种 机 图 6( a)、图 6

F1-sor
e= 12)

P +R b)、图 6(
( c)、图 6(
d)图 像 均 会 出 现 识 别 错 误,此 种 现
采用农机机具识别网络对测试集的 5 类机具图像 象的情况较少,可能是其纹理、颜色比例与其他 机具 相
进 行 测 试 试 验,试 验 结 果 的 可 视 化 混 淆 矩 阵 如 表 4 似,所以识别错误。
所示。 上述分析说明,模型仍存在不足之处:当 机具图 像
表 4 混淆矩阵 有大面积遮挡或只拍摄到部分机具时,识别能力较弱。
Tab.
4 Con
fus
ion ma
tri

A B C D E

A 195 1 2 0 1
B 0 196 3 0 1
C 0 2 198 0 0
D 0 0 1 199 0
E 0 3 0 2 195

注:A 表示播种机,
B 表示翻转犁,
C 表示 起 垄 机,
D 表 示 深 松 机,
E表
示旋耕机。

分别 计 算 机 具 类 别 A~E 的 精 确 度、召 回 率 和

F1-soe,计算结果 见 表 5。 其 中,精 确 度 表 示 该 类 别

混淆矩阵对角线 的 值 除 以 该 类 别 对 应 列 总 和;召 回 率
表示该类别混淆矩阵对角线的值除以该类别对应行总
和, c
F1-soe 值作为参 数 指 标 精 确 度 和 召 回 率 的 调 和

平均。
在表 5 中,农机 机 具 识 别 网 络 在 测 试 集 上 精 确 度 图 6 识别错误农机机具图像
47% ,说明网络对负样本的区分能力很
的平均值为 98. i
Fg.
6 Mi
sre
cogn
iti
onimageo
fag
ricu
ltu
re ma
chi
ne
146 中国农机化学报 2022 年

害图像识别[ J].农业工程学报,2012,28( 11):152-157.


4 结论 [
8]T
an Ke
zhu,Ch
a a,Song We
iYuhu ixi
an,e
tal.
Ide
nti
fi
cat
iono


oyb
eans
eedv
ari
eti
esb
ase
d on hyp
ers
pec
tra
l ima
ge[
J].
1)构建了包括播种机、翻 转 犁、起 垄 机、深 松 机 和

ran
sac
tion
s o
f t
he Ch
ine
se So
cie
ty o
f Ag
ric
ult
ura

旋耕机 5 种类 型 的 农 机 机 具 图 像 标 注 数 据 集,其 中 训
Eng
ine
eri 9):235-242.
ng,2014,30(
练集 55000 张,验证集 18970 张,该 数 据 集 可 以 用 于 9]陶华伟,赵力,奚吉,等 .基于颜色及纹理特征的果蔬种类

研究农机机具的 自 动 识 别、检 测、跟 踪 等 智 能 化 应 用。 识别方法[
J].农业工程学报,2014,30(
16):305-311.
针对农机机具图 像 存 在 的 质 量 问 题,分 别 进 行 了 图 像 Tao Huawei,Zhao L
i,XiJi,e
tal.Fr
uitsandveget
able

裁剪、图像色彩 调 整 和 运 动 模 糊 消 除 3 个 方 面 的 图 像 r
ecogni
tion ba
sed on c
olo
r and t
extur
ef ea
tures [J].

预处理。 Transac
tions ofthe Ch i
nese So
cie
ty o
f Ag
ricu
ltu
ral
Engine
eri , , ( ):
ng 2014 30 16 305-311.
2)根据实际应用需求和 数 据 特 点,设 计 了 能 够 自
10]钱建平,李明,杨信廷,等 .基 于 双 侧 图 像 识 别 的 单 株 苹

动识别农机机具的 卷 积 神 经 网 络。 在 2 块 GPU 上 训 果树产 量 估 测 模 型 [
J].农 业 工 程 学 报,2013,29(
11):
练了近 80000 张 机 具 图 像,识 别 准 确 率 超 过 98% ,单 132-138.
张图片识别 效 率 达 0.
1s。 训 练 集 和 验 证 集 识 别 率 均 Qi
an J
ianp
ing, L ng, Yang Xi
i Mi ntng,e
i tal.Yi
eld
超过 98% ,说 明网络对环境变化、光影干扰、小区 域 前 e
stimat
ion mode
lo fsing
letreeof Fu
jiappl
es ba
sed on

景遮挡具有良好 的 鲁 棒 性,训 练 集 和 验 证 集 样 本 不 重 b
ilat
era
limage ident
if
icat
ion [J].Trans
act
ions ofthe
Chine
se So
cie
tyof Ag
ricu
ltu
ral Eng
ine
erng,2013,29

叠,说明网络有良好的泛化能力。
(11):132-138.
t-5 和 Re
3)与经典网络 LeNe t-50 相比,本
sNe
11]贾洪雷,王刚,郭明卓,等 .基 于 机 器 视 觉 的 玉 米 植 株 数

文设计的农机机具识别网络在保持较高识别准确率与 量获 取 方 法 与 试 验 [
J].农 业 工 程 学 报,2015,31(
3):
效率的同时,结构 相 对 简 单,参 数 较 少,所 需 训 练 时 间 215-220.
较短。 Ji
aHongl
ei,Wang Gang,Guo Mi
ngzhuo,e
tal.Me
thods

4)在训练集和验证集外,随 机 挑 选 5 种 类 型 的 图 and expe


rimen
tso
f ob
tai
ning c
orn popu
lat
ion ba
sed on
machinevis
ion [
J].Trans
act
ionsoftheChi
nes
eSo
cie
tyo

像各 200 张作为 测 试 集,设 计 测 试 试 验 验 证 模 型 的 实
Ag
r i
cu l
tur
alEngine
er , , ( ):
ng 2015 31 3 215-220.

用性,测得模型 对 各 类 机 具 图 像 识 别 精 确 度 平 均 值 为
12]张铁民,庄晓霖 .基于 DM642 的高地隙小车的田间路径识

47% ,召回率平均值 为 98.
98. 37% ,
F1-s
core平 均 值 为 别导航系统[
J].农业工程学报,2015,31(4):160-167.
41% ,表明模 型 实 用 性 较 强;并 分 析 了 错 误 识 别 的
98. Zh
ang T
i n,Zhu
emi ang X
iao
lin.
Ide
nti
fi
cat
iona
ndn
avi
gat
ion
原因。 s
yst
em o
ff a
rml
andpathforh
igh-c
lea
ran
cev e
hic
leb
asedon
综上所述,本文 根 据 农 机 机 具 原 始 图 像 构 建 了 基 [ ]
DM642 J . T r
ans
act
ion
s oft he Ch i
nes
e Soc
iet
y of

于卷积神经网络 算 法 的 农 机 机 具 图 像 标 注 数 据 集,设 Agr


icul
tur
alEng
inee
ring,2015,31(
4):160-167.
[ ]
13 Le ,
cun Y Beng i ,
o Y Hi nt
on G.De ep l
ear
ning [
J].
计卷积神经网络结构并训练模型实现了农机机具的自
Natu
re,2015,521:436-444.
动识别,能够较好地满足实际应用需求。 [
14]Schmidhube
rJ.Deep l
earn
ing in neu
ral ne
two
rks: An
over
vi [ ]
ew J .Neu
ralNetwor , , :
ks 2014 61 85-117.
参 考 文 献

15]Hayk
in S,Ko sko B.Grad
ien
tba sedl
earn
ingappli
edto
1]何勇,聂鹏程,刘飞 .农业物联网与传感仪器研究 进 展[
[ J]. do
cumen
trecognit
i [ ]
on D .Wi ley-IEEE Pr
es , ,
s 2009 86
农业机械学报,2013,44(
10):216-226. (11):306-351.
2]李瑾,郭美荣,高 亮 亮 .农 业 物 联 网 技 术 应 用 及 创 新 发 展
[ [
16]Kri
zhevky A, Su
s ts
kev
er I, Hint
on G E.Ima eNe
g t
策略[
J].农业工程学报,2015,31( S2):200-209. c
lass
if
ica
tion w
ithd
eepconv
olu
tion
alneu
raln
etwo
rk [ ]
s C .
3]刘阳春,苑严伟,张俊宁,等 .深松作业远程管理系统设计
[ In
terna
tiona
lConfer
enceonNeur
a lIn
format
ionPro
ces
sing
与试验[
J].农业机械学报,2016,47(
S1):43-48. Syst
ems.Cu rr
an Asso
cia
tesI
nc. :
2012 1097-1105.
4]张 晓 东 .基 于 And
[ rod的农机深松作业监控与服务系统设
i [
17]DanC C, Me
ier U, Gamba
rde
lla L M, e
t a
l.
计与实现[ D].泰安:山东农业大学,2016. Convo
lut
iona
lneu r
alnetwor
kcommit
teesforhandwr
itt
en

5]Y
in Ya
nxn,Me
i ngZh
ijun,Me bo,e
iHe tal.S
tudyont
il
li
ng cha
rac
tercla
ssi
fic
ati [ ]
on C .In
ter
nat
ional Con
fer
enc
e on
det
phd e
tec
tion me
thod b
ased on at
ti
tud
e measu
remen
tfo
r Do
cumen
t Ana
lys
is and Re
cogn
iton.IEEE, 2011:


ubsoi
le [ ]
r C .Na t
ion
al Engi
n e
eri
ng Rese
arc
h Cent
erfo
r 1135-1139.

nfo
rma
tionT
echno
logyi
nAg
ric
ult
ure,2015. [
18]SzegedyC,L iu W,Ja Y,e
i tal.Going de
eper with
6]邓继忠,李敏,袁之报,等 .基于图像识别的小麦腥黑穗病害
[ convolu
tions [
C].IEEE Con
fer
enc
eon Computer Vi
sion
特征提取与分类[J].农业工程学报,2 012,28(3):172-176. andPa
tte
rn Re
cogn
iti
on.
IEEE Compu
terSo
cie
ty,2015:
7]温芝元,曹乐平 .基 于 补 偿 模 糊 神 经 网 络 的 脐 橙 不 同 病 虫
[ 1-9.
第5期 雷雪梅 等:基于卷积神经网络的农机图像自动识别研究 147

19]B
[ lucheT,Ney H,Ke
rmo
rvan
tC.Fe
atu
reex
tra
cti
on wi
th the 2016 c
onfe
rence on ma ch
ine trans
lat
ion [C ].

onvo
lut
iona
l neu
ral ne
two
rks f
or handwr
itt
en wo
rd Conf
erenc
eon Mach
ineTrans
lat
ion,2016:131-198.

ecognit
ion [C].In
ternat
ional Con
fer
enc
e on Do
cumen
t 26]彭明霞,夏 俊 芳,彭 辉 .融 合 FPN 的 Fa
[ st
erR-CNN 复
Anals
yisandRecogni
tion.IEEE,2013:285-289. 杂背景 下 棉 田 杂 草 高 效 识 别 方 法 [
J].农 业 工 程 学 报,

20]He H,ShaoZ,Tan J.Recognit
ion ofcar makes and 2019,35(20):202-209.
mode
lsfrom a s
ing
let
raf
fic-c
ame r [ ]
a image J .IEEE Peng Mi
ngxa,X
i i
aJunf
ang,Pe
ng Hu
i.E
ffi
cie
ntr
ecogn
iti
on
Tr
ans
act
ions on I
nte
ll
igen
t Tr
anspo
rta
tion Sy
stems, ofco
tton and we
edi nfi
eldb a
sed on Fas
ter R- CNN by
2015,16(
6):3182-3192. i
ntegr
atingFPN [ J].Trans
actionsoftheCh ine
seSo
cie
ty
[ ]
21 LiuZ LuoP, Qi
, u S, etal.De
epFa
shon: Powe
i ring ofAgricul
tura
lEng i
neer
i , , ( ):
ng 2019 35 20 202-209.
robus
t c l
othe
s r e
cogn
iti
on and r
etr
ieva
l with rich 27]卢伟,胡海阳,王家鹏,等 .基 于 卷 积 神 经 网 络 面 部 图 像

annot
atons[
i C].IEEEConfer
enc
eonComputerVi
sionand 识别的拖拉机驾驶员疲劳检测[ J].农 业 工 程 学 报,2018,
Pat
ter
nRe cogn
ition,2016:1096-1104. 34(
7):192-199.

22]Noda K,Yamaguch iY,Nakada iK,e tal.Audi
o-v
isual i,Hu Ha
Lu We yang,WangJ
i iapeng,e
tal.Tr
act
ord
rive

spe
ech r
ecogni
tion using de
ep le
arni [ ]
ng J .App lied f
ati
guedete
cti
onba sedonc onvo
l u
tionneura
lnetwor
kand
In
tel
ligence,2015,42(4):722-737. f
aci
alimagerecogn
ition [
J].Tr ansac
tionsoft
he Chine
se

23]Bahdanau D,Cho r iJ,Se
owsk rdyuk D,e
tal.End-t
o-end So
cie
tyo
f Ag
ricu
ltu
ral Eng
ine
erng,2018,34(
i 7):192
at
tent
ion-basedla
rgevo cabu
lar
yspe echr
ecogn
iton [
i C]. -199.
IEEEI nt
erna
tiona
lConfer
enceon Acous
tis,Spe
c echand 28]孔庆好,吐尔逊·买买提,赵 梦 佳 .基 于 卷 积 神 经 网 络 的

Signa
l Pro
ces
sing,2016:4945-4949. 拖拉机 工 况 识 别 [
J].中 国 农 机 化 学 报,2021,42(
11):

24]HuB,Lu Z,L i H,etal.Convol
uti
onalneura
lnetwo
rk 144-150.

rch
ite
ctu
resf
orma t
chngna
i turall
anguagesen
tenc
es[J]. Kong Qi
ngh
ao,T
urxun Ma
ima
ii,Zh
t ao Me
ngi
ja.Re
cogn
iti
on
Advanc
esi n Neura
lInformat
ion Proc
ess
ing Sys
tems, o
ft r
act
or wo
rkng c
i ond
iti
on bas
e d on c
onvol
uti
onalneura

2015,3:2042-2050. ne
twork[J].
Journ
alofCh in
ese Agr
icul
tura
l Mecha
niz
aton,


25]Bojr O,Cha
a tt
ere
je R,Federmann C,etal.F
ind
ingsof 2021,42(
11):144-150.

Re
sea
rchonau
toma
ticrec
ogni
tionofar
gic
ult
u ra
lma ch
ineima
geba
sedon

onvol
uti
onalne
uralnetwork

Le
iXueme
i1
,ZhangGuangq
iang2 ,YaoQi3 ,L
iu We
iwe
i4
,Qi i5
uShua

1.Co
llegeofInt
ell
igentManufac
turing,SichuanPo
lytechnicof Chemica
lIndu
stry,Luzhou,646000,Chna;

2.Beii
jngInt
ell
igentAgr
iculturalEqu
ipmentTechnology Re
searchCent
er,Bei
jing,100089,China;
3.Colegeof Agr
l onomy,No rt
hwetA & F Un
s iver
siy,Xi
t anyang,712100,Ch na;

Co
4. l
legeof Engi
neer
ingand Techno
logy,Southwes
tJiaotong Uni
vers
ity,Chengdu,610031,Chna;

5.Schoo
lof Arti
fic
ialIn
tel
ligen
ce,Sou
th wes
t Uni
versi
ty ,Chon in
gq g, 400715,China)

Abs
tra
ct:Theopera
tionsuperv
isi
onsystem ba
sedonagr
icul
tur
alma
chine
rynetwork
ingte
chnologycaniden
tiyt
f hemachinetypeand

heopera
tions
tat
ebyc ol
lect
ingtheimageofthemach
inetoo
l.Howe
ver,wit
hincr
easeintheamountofimagedata,manuals
amp l
ing

sf a
ced wi
thchal
lengessuchashavingaheavywo rk
loadandlit
tlesuperv
ison,wh
i i
chdoesnotmeett
hesuper
vis
ionrequ
iremen
ts.In
th
ispape ,
r imagedatasetsi
ncl
udingseede
rt,il
tingpl ,
ough er
asing ma
chi ,
ne de
eploo
serandro
tar
ycult
iva
torwerec
onstruc
t ,
ed and
the mach
ineimagedatas
ets wer
eanno t
atedandp rep
rocessedunder Goog
le’sdeeplea
rningpl
atf
orm Tensor
flow.A convol
utional
neuralne
twork mode
lwasdesignedto meettheac
tualregul
a t
or re
y q u
irement
s andimagecha
rac
ter
ist
ics,af
terw h
ichthe mode
l was
op
timi
zed by r
educ
ing ove
r-f
itt
ing and imp
rov
ing t
rai
ning e
ffi
ciency.The mode
ltr
ain
ing expe
rimen
tre
sul
ts showed t
hatt
he
recogni
tionrat
eoft he mach
inerec
ognit
ion ne
two rk de
signedi
nth
is pape
rreached 98.
5% ontheve
rif
ica
tionse
t.Unders imi
lar
experimenta
lcond
iti ,
ons t herec
ognit
ion r
ateo f LeNet-5 modeland ResNe
t-50 mode l wa
s 81% and 98. ,
8% r espe
ctive
ly.
Howe
ver,i
nte
rmso
fre
cogn
iti
one
ffi
ciency,Re
sNe
t-50mode
lne
ededne
arl
y60hou
rst
ocomp
let
ethet
rai
ningand0.
3st
ore
cogn
ize
apic
ture,wh
ilethe ma
chi
nere
cogni
tion network desi
gnedinth
ispape rneeded30hourstoc
omp le
tethetra
inng,and0.
i 1st o

ecogni
zeapi
ctur
e.Inorde
rtofur
the
rve rif
yt hepr a
ctic
abi
li
tyo
ft he mode ,
l 200images we
rese
lec
tedfo
rt e
sti ,
ng andtheave
rage

ccu
racyo
fthemode
lfo
ral
lki
ndso
fma
chi
neandt
oolimage
swa 47% ,t
s98. heave
rager
eca
llr
atewa 37% ,andt
s98. heave
rageF1-

sorewas98.41% ,i
ndi
cat
ingthatthe mode
lhadgoodr obust
nessandpra
cti
cab
ili
ty.
Keywo
rd :
s ag
r i
cul
tur
almachi
neryandtool ;
sc onvo
lut
ionalneura
lnetwo
r ;
k imager e
cogn
iton;de
i epl
ear
ning

You might also like