张善文 et al - 2020 - 多尺度融合卷积神经网络的黄瓜病害叶片图像分割方法

第 36 卷第 16 期农业工程学报 Vol.36 No.
16
2020 年 8月 Transactions of the Chinese Society of Agricultural Engineering Aug. 2020 149
多尺度融合卷积神经网络的黄瓜病害叶片图像分割方法
张善文，王振，王祖良
（西京学院信息工程学院，西安 710123）
摘要：黄瓜病害叶片中的病斑区域分割是病害检测与类型识别的关键步骤，分割效果将直接影响病害检测和识别的精
度。针对传统方法对于黄瓜病害叶片图像分割精度低和泛化能力弱等问题，提出一种基于多尺度融合卷积神经网络
（Multi-Scale Fusion Convolutional Neural Networks，MSF-CNNs）的黄瓜病害叶片分割方法。MSF-CNNs 由编码网络
（Encoder Networks，ENs）和解码网络（Decoder Networks，DNs）两部分组成，其中 ENs 为一个多尺度卷积神经网络
组成，用于提取病害叶片图像的多尺度信息；DNs 基于九点双线性插值算法，用于恢复输入图像的尺寸和分辨率。在
MSF-CNNs 模型训练的过程中，使用一种渐进微调的迁移学习方法加速模型的训练，提高模型的分割精度。在复杂背景
下的作物病害叶片图像数据库上进行病害叶片图像分割试验，并与现有的分割方法全卷积网络（Fully Convolutional
Networks，FCNs）、SegNet、U-Net、DenseNet 进行比较。结果表明，该 MSF-CNNs 能够满足复杂环境下的黄瓜病害叶片图
像分割需求，像素分类精度为 92.38%、平均分割准确率为 93.12%、平均交并比为 91.36%、频率加权交并比为 89.76%。与
FCNs、SegNet、U-Net、DenseNet 相比较，MSF-CNNs 的平均分割精度分别提高了 13.00%、10.74%、10.40%、10.08%和 6.40%。
使用渐进学习训练方式后，训练时间缩短了 0.9 h。该方法为进一步的黄瓜病害检测和识别方法研究提供了参考。
关键词：图像分割；卷积神经网络；病害；蔬菜；多尺度融合；迁移学习
doi：10.11975/j.issn.1002-6819.2020.16.019
中图分类号：TP391 文献标志码：A 文章编号：1002-6819(2020)-16-0149-09
张善文，王振，王祖良. 多尺度融合卷积神经网络的黄瓜病害叶片图像分割方法[J]. 农业工程学报，2020，36(16)：

149-157. doi：10.11975/j.issn.1002-6819.2020.16.019 http://www.tcsae.org
Zhang Shanwen, Wang Zhen, Wang Zuliang. Method for image segmentation of cucumber disease leaves based on multi-scale
fusion convolutional neural networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the
CSAE), 2020, 36(16): 149-157. (in Chinese with English abstract) doi ： 10.11975/j.issn.1002-6819.2020.16.019
http://www.tcsae.org
多；OTSU 法的效果较差，最优迭代阈值法效果最差。
0 引言
Barbedo 等[10]针对多种环境条件下的作物病害叶片图像
作物病害叶片图像分割是病害检测和病害类型识别分割问题，对病变的定界、光照、叶脉干扰、叶片强度
方法中的一个重要步骤，其分割效果直接影响到后续的等问题进行了深入的探讨。Ma 等[11]提出了一种利用综合
检测和识别结果。由于作物病害叶片图像的形状和颜色颜色特征（Comprehensive Color Feature，CCF）进行蔬菜
复杂、多样、无规律且多变，使得病害叶片图像分割方病害叶斑分割的方法，实现对病害叶片的病斑和杂波背
法研究一直是一项重要且具有挑战性的研究方向[1-3]，涌景的强识别。Wang 等[12]提出了一种基于 K-均值聚类的
现出很多基于图像处理和模式识别的多种农作物病害叶作物病害图像自适应分割方法。该方法能够自适应地学
片图像分割方法[4-6]。传统的方法是采用单一阈值，对在习初始聚类中心，以欧氏距离的平方为相似距离对两个
简单背景下的病害叶片图像进行分割，取得了较高的分聚类进行迭代颜色聚类，最后两个聚类之间的距离为聚
割效果，但由于大田病害叶片图像的背景比较复杂，而类准则函数对聚类结果进行校正。Swathi 等[13]提出了一
且叶片图像颜色成分丰富，包含大量噪声和一些不确定种基于人工神经网络和支持向量机的水稻病害识别方
像素，不能采用单一的阈值对图像进行分割[7-8]。为了提法。该方法首先进行图像采集，将 RGB 图像转换为 HSI
高水稻叶病图像的分割效果，Liu[9]采用最优迭代阈值法、图像，利用形态学处理去除噪声，然后提取病斑图像的
OTSU 法和模糊 C-均值聚类算法对不同情况下采集的水均值、标准差等特征，最后利用神经网络方法和支持向
稻叶病图像进行自适应分割。对比分析表明，3 种方法均量机进行病害分类。Zhang 等[14]提出了一种带有主动梯度
能有效地从病害叶片图像中分割出病斑，而模糊 C-均值和局部信息的病害叶片图像自动分割模型。该模型对光照
聚类算法的效果最好，但迭代次数过多，花费的时间最不均匀、病斑模糊、病害叶片粘连、阴影、背景复杂、病
害叶片边缘不清晰、交错等 7 种棉花病害叶片图像具有较
收稿日期：2020-03-14 修订日期：2020-04-20 高的分割精度和较短的运行时间。该模型不仅可以对自然
基金项目：国家自然科学基金项目（61473237）；陕西省重点研发计划重点条件下的棉花叶片进行图像分割，还可以为棉花病害的准
项目（2018ZDXM-NY-014）
确识别和诊断提供技术支持。Shieh 等[15]提出了一种基于
作者简介：张善文，教授，主要从事机器学习、深度学习及其在植物病虫害
识别中的应用等方面研究。Email：wjdw716@163.com
三维直方图重构 Otsu 算法的黄瓜炭疽病害叶片图像分割
150 农业工程学报（http://www.tcsae.org） 2020 年
方法，其特点是通过高斯拟合迭代得到最优阈值。比较。图像采集地点位于陕西省宝鸡市农业科学院大田
在真实农田条件下采集的病害叶片图像不可避免地作物试验基地（33°35N，106°18E）。采集时间为 2018
存在光照不均匀和背景复杂等问题，而且作物病害叶片年 6—12 月，采集设备为 HIKVSION 摄像机，最大分辨
图像采集不可避免地受到复杂背景、天气变化、拍摄角率 1 960×1 080 像素，USB 4.0 接口，传输速率为 38 帧/s。
度等诸多因素的影响，特别是病害叶片及其相应的病变采集时相机位于地面 100 cm，使用环绕方式采集视频图
往往是复杂的、不规则的和随时间变化的，因此以上方像，平均气温为 21 ℃。为了测试算法的鲁棒性，采集时
法基于人工设计的特征提取和阈值求解的病害叶片图像的环境包括阴天、晴天和降雨等不同的天气状态。采集
分割方法的分割精度和泛化能力不能满足大田作物病害的图像包括常见的黄瓜靶斑病、黄瓜褐斑病、黄瓜黑腐
检测和识别需要。如何在自然环境中有效地对农作物叶病和黄瓜炭疽病等，所采集的图像共包括 760 幅。初始
片进行图像分割是亟待解决的问题。采集到的图像分辨率 1 960×1 080 像素，为了提高模型的
目前，深度学习在领域图像和自然图像分割方面取得训练效率，利用 Photoshop 将图像统一压缩为 256×256 像
了重大进展。卷积神经网络（ Convolutional Neural 素。构建的作物病害叶片图像数据集均为真实的大田环
Networks，CNNs）是一种比较强大的深度神经网络，在作境中采集，图像中包括叶片、杂草和土壤等多类背景干
物病害图像分割、检测和识别中取得了成功应用，取得了扰信息，部分图像如图 1 所示。
显著效果[16]。Shervin 等[17]讨论了至 2019 年出现的 100 多
种基于深度学习的分割方法，包括数据预处理、网络架构
的选择、损失功能、培训策略以及其关键贡献，并讨论了
基于深度学习的图像分割模型的几个挑战和未来可能的
方向。针对大田作物病害叶片图像分割容易受到不同光照 a. 土壤背景 b. 叶片遮挡 c. 多个叶片
和复杂背景影响的问题，刘永波等[18]提出了一种在自然环 a. Soil background b. Leaf occlusion c. Multiple leaves
境条件下基于深度卷积神经网络（Deep Convolutional
Neural Networks ， DCNNs ）的玉米病害识别方法。
Muhammad 等[19]提出了一种基于相关系数和 DCNNs 的水
果病害自动分割识别系统。在 DCNNs 中，利用两个预先
训练的 VGG16 和 AlexNet 模型对选定的病害进行特征学 d. 叶片残缺 e. 叶片黏连 f. 光照复杂
d. Incomplete leaf e. Leaf adhesion f. Complex lighting
习和病害类型识别。Lin 等[20]提出了一种基于 CNNs 的语
图 1 不同环境下黄瓜病害叶片图像
义分割模型，对黄瓜叶片图像进行像素级别的炭疽病分
Fig.1 Cucumber disease leaf images in different environments
割，并在 20 个测试样本上取得了平均像素分割精度为
96.08%。SegNet 是一种解决图像语义分割问题的 CNNs 从采集的 760 幅病害叶片图像种选取 680 幅图像进行
模型[21]。全卷积网络（Fully Convolutional Networks，FCNs）标注，在标注后的图像中选取 450 幅作为训练集图像，120
将原始 CNNs 中包含的全连接层替换为卷积层，克服了幅病害叶片图像作为验证集，其余的 110 幅未标注图像作
CNNs 在图像分割中的缺点。SegNet 与 FCNs 的思路比较为测试集。在模型训练的过程中，训练集用于模型的权重
相似，区别在于上采样和下采样的技术不同，SegNet 通过参数的学习；通过验证集优化网络模型结构，同时减少模
最大池化索引可以优化边界轮廓，减少网络模型参数数型的复杂度；测试集图像对所提出的方法进行验证。
量，并完成端到端的模型训练。U-Net 是另一种 CNNs 模 1.2 多尺度融合卷积神经网络模型
型，其网络结构与 SegNet 相似，主要包括收缩网络和扩展多尺度融合卷积神经网络（ Multi-Scale Fusion
网络 2 个部分组成[22]。U-Net 采用收缩和扩展的结构，通 Convolutional Neural Networks，MSF-CNNs）是针对现有的
过跳跃连接提取多尺度信息，并在卷积层捕获粗糙和细腻复杂病害叶片图像分割任务提出的。MSF-CNNs 模型结构
图像特征信息。与 U-Net 相比，SegNet 不能有效地捕获多与 U-Net 和 SegNet 网络模型相似，主要包括编码网络
尺度信息，而 U-Net 的学习参数很多，所以训练相对较慢。（encoder networks）和解码网络（decoder networks）2 个部
本研究针对病害叶片图像分割问题，结合 SegNet 和分，但是为了提取输入图像的多尺度信息，在编码网络中
U-Net 的优点，提出一种新的多尺度融合卷积神经网络引入了多级并联结构，解码网络中则引入了多尺度连接的
（ Multi-Scale Fusion Convolutional Neural Networks ，形式。具体的编码网络中使用多列并行的卷积神经网络形
MSF-CNNs），并应用于黄瓜病害叶片分割，通过大量病式，能够提取作物病害叶片图像的多尺度特征。解码网络
害叶片图像分割试验进行验证。该方法为进一步的黄瓜中通过引入九点双三次插值算法作为反卷积的插值方式，
病害检测和识别方法研究提供了参考。恢复图像的尺寸和分辨率。在整体网络模型的结构中，使
用跳跃连接来传递不同卷积层中所提取的特征信息，同时
1 材料与方法引入批归一化（Batch Normalization，BN）操作来缓解模型
1.1 数据采集与处理的梯度弥散现象。MSF-CNNs 模型的结构如图 2 所示。
本研究以复杂背景下的黄瓜病害叶片图像作为研究 MSF-CNNs 模型的每组子卷积神经网络共包括 12 个
对象进行分割试验，并对不同算法的分割结果进行分析卷积层（Conv）、1 个反卷积层（Deconv）、4 个最大池
第 16 期张善文等：多尺度融合卷积神经网络的黄瓜病害叶片图像分割方法 151
化层（max-pooling）以及 2 个多尺度连接层（multi-scale 操作能够将不同卷积层输出的相同分辨率特征图在通道

connection）。除了最大池化层 4 以外，其他最大池化层上连接起来，其目的是能够将低层次特征图和高层次特
的池化区域大小都定义为 2×2 且步长（stride，S）为 2；征图进行共享，进而减少参数的数量和训练数据，并加
为了能将 Conv4 和 Conv5 输出的特征图进行多尺度连接，快训练速度。在整体的分割流程中把 3 组卷积神经网络
设定 MP_4 的池化区域大小为 3×3 及步长为 1；Deconv 在 Conv7 上输出的特征图连接起来，并且经 Conv8 将连
表示反卷积层，其参数形式和卷积层相似，MSF-CNNs 接之后的特征图送入 SoftMax 进行像素点分类，完成对
中使用一个反卷积层将 Conv4 和 Conv5 进行多尺度连接输入作物病害叶片图像的病斑区域分割问题。MSF-CNNs
后的特征图上采样到输入图像分辨率的 1/4，因此能够进模型包括 3 个并联的子卷积神经网络，每组子网络模型
一步将 Deconv 输出的特征图和 Conv3 输出的特征图进行除了在卷积核尺寸和数量不同外其他的结构都相同，
多尺度连接；图 2 中的多尺度级联操作通过多尺度级联 MSF-CNNs 模型的参数如表 1 所示。
注：Conv 为卷积操作；Deconv 为反卷积操作； 4 个整数乘积中第 1 个数字表示卷积核数量，第 2 个数字和第 3 个数字相乘表示卷积核尺寸，第 4 个数字表

示卷积核通道数量； 2×2 和 3×3 表示池化区域大小；S 为步长。
Note: Conv represents the convolution operation; Deconv represents the deconvolution operation; the product of 4 integers, including the number of convolution kernels
as the first number , the size of the convolution kernels as the product of the second number and the third number, the number of channels in the convolution kernels as
the fourth number; 2×2 and 3×3 represent the size of the pooling area; S represents stride.
图 2 多尺度融合卷积神经网络（MSF-CNNs）模型结构
Fig.2 Structure of the Multi-Scale Fusion Convolutional Neural Networks (MSF-CNNs)
表 1 多尺度融合卷积神经网络模型参数 MSF-CNNs 模型的关键技术包括双三次插值算法、多

Table 1 Parameters of Multi-Scale Fusion Convolutional 尺度卷积单元和批归一化算法，下面分别对其进行介绍。
Neural Networks
1）双三次插值算法。常用的语义分割模型例如
通道数通道数
层数类别尺寸层数类别尺寸 FCNs、SegNet 和 U-Net 等网络模型都使用原始的双线性
Number of Number of
Layer Type Size Layer Type Size
channels channels
插值算法作为反卷积层，用于恢复输入图像的尺寸和分
最大池化
1 卷积 1 Conv1 5×5 24 8
Max-pooling
2×2 512 辨率。尽管双线性插值算法较为简单，但无法完整的恢
1 卷积 1 Conv1 7×7 20 9 卷积 5 Conv5 7×7 512 复图像的细节特征，因此在 MSF-CNNs 中引入了九点双
1 卷积 1 Conv1 9×9 16 9 卷积 5 Conv5 7×7 512 线性插值算法作为反卷积层，从而恢复输入图像的底层
最大池化信息和高层信息。在使用双三次插值的过程中，分别对
2 2×2 128 9 卷积 5 Conv5 7×7 512
Max-pooling
3 卷积 2 Conv2 3×3 48 10 反卷积 Deconv 7×7 256
垂直方向和水平方向进行的卷积操作进行多次一维插值
3 卷积 2 Conv2 5×5 40 11 卷积 6 Conv6 3×3 512 来实现二维的双三次插值算法。二维的九点双线性插值
3 卷积 2 Conv2 7×7 32 11 卷积 6 Conv6 5×5 512 算法实现步骤如下，首先定义输入图像为 F，图像尺寸定义
4
最大池化
2×2 256 11 卷积 6 Conv6 7×7 256 为 M  N ；然后对经过卷积层运算得到的特征图在垂直方
Max-pooling
向和水平方向进行插值运算；最后定义插值后的图像为 G，
5 卷积 3 Conv3 3×3 24 12 卷积 7 Conv7 3×3 128
5 卷积 3 Conv3 5×5 20 12 卷积 7 Conv7 5×5 128
经过插值后的图像尺寸为 S  T 。则图 G 中任意一个像素(x,
5 卷积 3 Conv3 7×7 16 12 卷积 7 Conv7 7×7 128 y) 的值 g ( x, y ) 可以利用该像素的 16 个邻近像素点
6
最大池化
3×3 512 13 反卷积 Deconv 7×7 1 ( xi , y j )(i  0,1, 2,3; j  0,1, 2,3) 的加权叠加如式（1）所示
Max-pooling
3 3
g ( x, y )   aij u ( xi )u ( y j )
7 卷积 4 Conv4 3×3 24 14 卷积 8 Conv8 1×1 1
（1）
7 卷积 4 Conv4 3×3 20 14 卷积 8 Conv8 1×1 1 i 0 j 0
分类器
7 卷积 4 Conv4 3×3 16 15 2 -- 式中 aij 为加权系数，u(x)为双三次插值函数如式（2）所示
SoftMax
(a  2) x 3  (a  3) x 2  1 , x  1 式中 x k 为第 k 批次的样本， xik 为第 k 批次的第 i 个样本，


u ( x )   a x  5a x  8a x  4a ,1  x  2 （2）
3 2 Var( x k ) 表示方差， E (x k ) 表示统计均值。
 步骤 2：归一化操作。把输入向量中的每个元素当成
0 , else
独立随机变量单独进行归一化，即向量中的各个元素都
式中 a 为一个常系数，一般取为-0.5。
单独独立，则归一化计算如式（5）所示
为了简单起见，一幅图像中对待插值的像素点(x, y)，取
 x k  E[ x k ]
其近邻的 16 像素点的像素值 g ( xi , y j ) (i, j  0,1, 2,3) 按如 xk  （5）
Var[ x k ]
下公式进行插值计算如式（3）所示
3 3 步骤 3：线性变换。单一的对数据进行归一化会改变
g ( x, y )   g ( xi , y j )u ( x  xi )u ( y  y j ) （3）原本数据的特征或者分布，为了解决该问题 BN 操作加入
i 0 j 0
了参数  和偏置  用于拟合数据的原始分布特性，则批
式中 g ( x, y ) 为插值后的图像在(x, y)处的像素值。
归一化计算如式（6）所示
2）多尺度卷积层结构。由于作物病害叶片的病斑区域 
尺寸不一致，因此在 MSF-CNNs 中引入多尺度卷积核结构， y(k )   (k ) x (k )   (k ) （6）
该结构是通过在网络卷积层中使用多个尺度不同的卷积核式中  (k )
和 (k )
分别表示第 k 批次的可学习参数，初始化
对输入图像进行多尺度特征提取，然后通过特征融合层对为 1、   0 。
多尺度特征图进行空间融合。多尺度卷积层包括尺度不同 4）迁移学习。在 CNNs 的特征提取过程中，浅卷积
的卷积核与特征平面组成多尺度特征信息，当低层特征图层能够提取底层特征，例如输入图像的颜色，边缘和形
的信息输入到高层时，在高层中分别使用不同尺寸的卷积状；随着网络层数的增加，网络模型可以提取高级功能，
核对低层特征图进行卷积操作，同时为了确保多尺度卷积例如图像层次结构和纹理。从低级特征到高级特征，
核的输入与输出之间的空间特征信息不变，特征图则依据 CNNs 具有从固定的特征过渡到图像的不变特征提取，而
卷积核尺寸的大小进行边缘填补。多尺度卷积核结构如图 3 传统的迁移学习策略没有进一步探讨特征等级与样本数
所示，包含了 4 种不同尺寸的卷积核，其尺寸大小分别为据大小和特征相似性之间的关系。为了提高 MSF-CNNs
9×9、7×7、5×5 和 3×3 的卷积核。的训练效率，采用一种渐进式微调的迁移学习策略用于
网络模型训练，其结构如图 4 所示。
如图 4 所示，基于渐进式微调的迁移学习训练步
骤为：
步骤 1：首先对仅参与的卷积层结构进行参数随机初
始化。
步骤 2：在网络模型非线性特征分类器的基础上，将
不同的卷积层中权值参数进行逐层释放，直到整个网络
模型被训练为止。
步骤 3：对各层进行微调后，定量分析损失值的变化
注：Conv1、Conv2 和 Conv3 分别为第一层、第二层和第三层的卷积操作；率，然后确定微调的卷积层参数。
2×2 和 3×3 表示池化区域大小。
Note: Conv1, Conv2 and Conv3 represent the convolution operations of three 在使用渐进微调的迁移学习方法对模型进行训练时
convolutional layers, respectively; 2×2 and 3×3 represent the size of the pooling area. 其定量分析损失值是通过损失函数来分析的其具体操作
图 3 多尺度卷积核结构为首先将原始模型在 ImageNet 数据集中进行参数预训
Fig.3 Multi-scale convolutional kernel structure
练，然后使用二分类的 SoftMax 函数替换 1 000 分类的
3）批归一化（Batch Normalization，BN）。BN 是 SoftMax 层，计算如式（7）所示
Google 于 2015 年提出的用于深度神经网络训练的技巧， c
si  exp(i ) /  exp( j ) （7）
它不仅可以加快模型的收敛速度，而且在一定程度上缓 j 1
解了训练过程中的过拟合问题，从而使得训练深层网络式中 c 表示模型最后一层神经元个数，一般为数据的分类
模型更加容易和稳定。BN 算法主要包括以下 3 个步骤：数，i 表示第 i 个神经元的线性输出，经过 Sigmoid 激活
步骤 1：计算统计值。计算样本数据集归一化所需的
函数后输出预测值 si 。
均值和方差。假设输入为 x  R md ，其中 m 表示当前批次
训练过程中选取二分类交叉熵作为损失函数，计算
的大小，即当前批次的训练样本数， d 表示输入特征图
如式（8）所示
的尺寸，则方差均值如式（4）所示
1 c  
 1  [yi ln yi  (1  yi ) ln(1  yi )]
L= （8）
 E ( x )  m  i 1 xi
k m k
c i 1
 （4） 
式中 yi 表示病斑标签， yi 为模型的输出， yi =0 表示背景
 Var( x k )  1
 ( xi  E ( x ))
m k k 2
 m i 1 区域， yi =1 表示病斑区域。
图 4 基于渐进式微调的迁移学习训练流程
Fig.4 Transfer learning training process based on incremental fine-tuning
5）全新学习。全新学习是指对网络模型的所有权重参病害叶片的能力。在前 500 次的迭代训练过程中，模型

数进行重新训练，随机初始化网络权重参数，使用概率分布迅速收敛，当迭代次数达到 500 次时，模型分割准确率
对参数赋予初值，在训练的过程中通过反向传播算法对权重已与全新学习的训练模式下的完成 1 000 次迭代的准确
参数进行优化。尽管能够有效减少模型的训练时间，提高学率相同，表明迁移学习能够节省模型训练时间。在使用
习能力，但没有进一步探讨特征等级与样本数据大小和特征渐进微调的迁移学习方法对模型训练的过程中，模型经
相似性之间的关系。全新学习能够克服迁移学习的不足。过 500 次迭代时准确率达到 0.75，当训练迭代次数达到
1 000 次时，模型的分割准确率达到 0.88，表明使用渐进
2 试验结果及分析
微调的迁移学习方式对网络模型进行训练，能够有效提
为了验证 MSF-CNNs 的有效性，将 MSF-CNNs 应用于高模型的训练速度和识别准确率。
黄瓜病害叶片图像分割，并与其他模型进行比较。网络模
型训练与测试的软件环境为 Ubuntu 16.04 LTS 64 位操作系
统，使用 python 作为编程语言，Tensorflow 作为深度学习
开源框架。试验硬件环境为 Intel E5-2665C2 @3.20GHz
CPU，64GB 内存；Nvidia 1070Ti，8GB 显存。使用 CUDA
Toolkit 9.0 和 CUDNN V8.0 作为网络模型训练加速工具包；
python 版本为 3.5，Tensorflow 版本为 1.9.0。在网络模型的
训练过程中首先将训练集和测试集图像分为多个批次
（batch），综合考虑计算机的硬件环境，本研究在试验过程
中将批次大小设置为 64，将所有训练集图像在网络模型中
完成遍历设置为一次迭代（epoch）。设置网络模型初始学 a. 不同迭代次数对应的识损失值
a. Loss values loss corresponding to different iterations
习率为 0.01，正则化系数设置为 0.001，随着 epoch 次数的
增加，学习率遵循指数衰减的原则依次减小为原来的 0.05
倍。使用贝叶斯函数对网络模型权重参数进行初始化，随
机生成均值为 0，方差为 1，遵循正态分布的权重参数。
2.1 MSF-CNNs 训练过程分析
作物叶部病害数据集中对全新学习（new learning）、
迁移学习（ transfer learning ）和渐进微调的迁移学习
（Progressive Fine-Tuning Transfer Learning，PFTL）3 种训练
方式进行训练效果对比（图 5）。在训练误差都为 0.000 1
时，3 种训练方式的训练时间分别为 8.4、6.5 和 5.4 h。
由图 5 可见，在全新学习的训练模式下，模型经过 b. 不同迭代次数对应的准确率
500 次迭代时的分割准确率仅为 0.67，当迭代次数达到 b. Accuracy rate corresponding to different iterations
图 5 3 种模型训练方法结果比较
1 000 时，分割准确率达到 0.73，但模型已具有收敛的趋
Fig.5 Comparison of results of three model training methods
势，当完成迭代训练后，模型准确率仅为 0.92，表明模
型的训练效果较差。在使用迁移学习对模型进行训练时，在作物病害叶片图像分割过程中，首先手动标记每个
模型经过 500 次迭代时准确率达到 0.71，具有初步分割待训练的原始病害叶片图像，其中将图像中的目标区域标
记为前景，其余的部分标记为背景。然后通过编码结构的采样用于恢复由池化引起的特征信息损失，反卷积用于恢复
卷积层提取标注后的图像特征，使用池化层对卷积层提取的输入图像的尺寸和特征分辨率。在经过编码结构和解码结构
特征图进行下采样，最后通过激活层来增强模型的特征表达后，使用 SoftMax 对图像像素进行分类，并输出分割结果。
能力。解码结构包括上采样层、卷积层和反卷积层，其中上 MSF-CNNs 模型训练过程、可视化结果如图 6 所示。
a. 训练过程
a. Training process
b. 特征图可视化
b. Feature maps
图 6 多尺度融合卷积神经网络（MSF-CNNs）训练过程和可视化
Fig.6 Training process and visualization of the Multi-Scale Fusion Convolutional Neural Networks (MSF-CNNs)
在网络训练的过程中选择不同的超参数对网络模型
的训练速度和识别精度均有不同程度的影响，首先在研
究的过程中分析固定学习率和指数衰减学习率对网络模
型性能的影响（图 7）。
由图 7 可知，设置学习率取固定值 0.01 时，模型的
训练速度加快，当迭代次数达到 800 次时，损失函数曲
线仍在下降，但损失函数曲线起伏较大，表明模型的训
练过程不稳定，当迭代完成后，模型的识别准确率为 0.91。
在使用以指数衰减（index decay）为原则调整学习率时， a. 不同迭代次数对应的损失值
损失函数曲线下降速度较快，而且几乎没有震荡现象发 a. Loss values corresponding to different iterations
生，表明模型的训练过程较为稳定，当完成 1 000 次的迭

代训练时，模型的分割达到 0.986。因此在 MSF-CNNs
模型的训练过程中使用指数衰减的形式调整学习率。
2.2 试验结果
为验证所提出模型的鲁棒性，分别使用不同分割算
法在多种复杂背景下的作物病害叶片图像上进行分割试
验，其中复杂背景主要包括待分割图像中存在土壤背景、
叶片遮挡、多个叶片、叶片残缺、病害粘连、光照条件
复杂等情况。针对每种复杂背景选取 20 幅图像共 120 幅 b. 不同迭代次数对应的准确率
图像进行鲁棒性对比试验。图 8 为图 1 的分割结果。由 b. Accuracy rate corresponding to different iterations
图 8 可以看出，在多种复杂背景下的分割结果中，图 7 超参数对模型性能的影响
Fig.7 Influence of super-parameters on model performance
MSF-CNNs 模型几乎不受环境的影响，能够有效的分割
出作物叶片的病斑区域。所以，MSF-CNNs 通过所构建 SegNet、U-Net、DenseNet 进行比较 [21-22]。在对试验结

的编解码结构有效的提取了输入图像的多尺度特征，不果进行分析的过程中，为了量化模型的性能分别使用像
仅能够准确的分割病斑区域的轮廓区域，而且对病斑的素分类精度（Pixel-classification Accuracy，PA）、平
细节区域也能完成准确分割。均精度（Mean Accuracy，MA）、平均交并比（Mean
为了验证 MSF-CNNs 模型对于病害叶片图像分割 Intersection Over Union， MIoU）和频率加权交并比
的性能，将其在真实采集的作物病害叶片图像数据库种（Frequency Weighted Intersection Over Union，FWIoU）
进行分割试验，并将其与现有的分割方法 FCNs 、作为综合评价指标，分割结果如表 2 所示。
a. 土壤背景 b. 叶片遮挡 c. 多个叶片 d. 叶片残缺 e. 叶片黏连 f. 光照复杂

a. Soil background b. Leaf occlusion c. Multiple leaves d. Incomplete leaf e. Leaf adhesion f. Complex lighting
图 8 不同环境下作物病害叶片分割结果
Fig.8 Cucumber disease leaf segmentation results in different environments
表 2 不同分割方法的分割评价指标
片图像的病斑区域边界较为复杂且所占面积较小，同时
Table 2 Segmentation results of the different segmentation 部分病斑区域与正常区域的相似度较高，导致正常区域
methods 边界与病斑区域边界难以区分，所以从表 2 中看出
平均交并比频率加权交并 MSF-CNNs 的分割性能评价指标值仍然较低。
平均精度 MIoU 比 FWIoU
分割方法像素分类精度 PA
MA (Mean (Frequency 3 结论
Segmentation (Pixel-classification
(Mean intersection weighted
method accuracy)/%
accuracy)/% over intersection
union)/% over union)/% 黄瓜病害叶片中的病斑区域分割是病害检测与类型
全卷积网络识别的关键步骤，分割效果将直接影响病害检测和识别
(Fully 78.62 80.12 78.62 77.62 的精度。针对传统方法对于黄瓜病害叶片图像分割精度
Convolutional
Networks) 低的问题，提出一种多尺度融合卷积神经网络
U-Net 81.38 82.38 80.38 79.31 （ Multi-Scale Fusion Convolutional Neural Networks ，
SegNet 82.64 83.04 82.96 81.93 MSF-CNNs）用于黄瓜病害叶片分割。MSF-CNNs 由编码
DenseNet 85.72 86.72 84.31 84.38 网络（Encoder Networks，ENs）和解码网络（Decoder
MSF-CNNs 92.38 93.12 91.36 89.76 Networks，DNs）2 部分组成，其中 ENs 为一个多尺度卷
积神经网络组成，用于提取病害叶片图像的多尺度信息；
由表 2 可知，MSF-CNNs 方法的 PA、MA、MIoU DNs 基于九点双线性插值算法，用于恢复输入图像的尺
和 FWIoU 值最高，分别为 92.38%、93.12%、91.36%和寸和分辨率。在模型训练的过程中，使用一种渐进微调
89.76%，MSF-CNNs 的 MA 比 FCNs、SegNet、U-Net、的迁移学习方法加快网络模型的训练速度和分割精度。
DenseNet 分别提高了 13.00%、10.74%、10.40%、10.08% 在复杂背景下的作物病害叶片图像数据库上进行分割试
和 6.40%。FCNs 使用反卷积过程恢复图像分辨率优化分验，并与现有的全卷积网络（ Fully Convolutional
割结果，但该方法的下采样操作弱化了模型的特征提取 Networks，FCNs）、SegNet、U-Net、DenseNet 深度学习
能力，导致其对小面积病斑区域的分割能力较差，因此模型进行比较。结果表明，该方法能够满足复杂环境下
其分割性能指标较差。SegNet 是基于空洞卷积的分割模的黄瓜病害叶片图像分割需求，像素分类精度为 92.38%，
型，空洞卷积能够扩大原始卷积核的局部感受野，但有平均分割准确率为 93.12%，平均交并比为 91.36%，频率
些病斑区域在整体叶片中所占比例较小，所以这 2 种分加权交并比为 89.76%。其中，平均分割准确率比 FCNs、
割方法在性能评价指标上均落后于 MSF-CNNs。根据以 SegNet、U-Net 和 DenseNet 分别提高了 13.00%、10.74%、
上结果能够判断 MSF-CNNs 具有较好的分割效果，对病 10.40%、10.08%和 6.40%。使用渐进学习训练方式后，
斑区域的分割结果最接近于真实值，能够满足自然状态训练时间缩短了 0.9 h。本方法为进一步的黄瓜病害识别
下对病害叶片图像分割的高精度要求。但是由于作物叶方法研究提供了参考。
[参考文献] 210-224.
[1] Li Hua, Chen Chuanbo, Zhao Shengrong, et al. Color disease [11] Ma Juncheng, Du Keming, Zhang Lingxian. A segmentation
leaf image segmentation using NAMS superpixel method for greenhouse vegetable foliar disease spots images
algorithm[J]. Technology and Health Care: Official Journal using color information and region growing[J]. Computers
of the European Society for Engineering and Medicine, 2018, and Electronics in Agriculture, 2017, 142: 110-117.
26(1): 1-6. [12] Wang Zhibin, Wang Kaiyi, Pan Shouhui, et al. Segmentation
[2] Shripriya R, Yuvaraj N. A survey on leaf disease prediction of crop disease images with an improved k-means clustering
algorithms using digital image processing[J]. Indian Journal algorithm[J]. Applied Engineering in Agriculture, 2018,
of Innovations and Developments, 2016, 5(10): 1-4. 34(2): 277-289.
[3] Zhang Shanwen, You Zhuhong, Wu Xiaowei. Plant disease [13] Swathi D, Bharathi A. Disease classification of paddy leaves
leaf image segmentation based on super pixel clustering and using HSI feature extraction and SVM technique[J].
EM algorithm[J]. Neural Computing and Applications, 2019, International Journal for Scientific Research & Development,
31(2): 1225-1232. 2016, 4(2): 127-129.
[4] Barbedo, Arnal J G. An automatic method to detect and [14] Zhang Jianhua, Kong Fantao, Wu Jianzhai, et al. Automatic
measure leaf disease symptoms using digital image image segmentation method for cotton leaves with disease
processing[J]. Plant Disease, 2014, 98(12): 1709-1716. under natural environment [J]. Journal of Integrative
[5] 汪京京，张武，刘连忠，等. 农作物病虫害图像识别技术 Agriculture, 2018, 17: 108-122.
的研究综述 [J]. 计算机工程与科学， 2014 ， 36(7) ： [15] Shieh S L, Lin T C. An efficient clustering algorithm based
1363-1370. on histogram threshold[J]. Computers and Electronics in
Wang Jingjing, Zhang Wu, Liu Lianzhong, et al. Research Agriculture, 2019, 158: 211-218.
review on image recognition technology of crop diseases [16] Mohanty S P, Hughes D P, Salathé M. Using deep learning
and insect pests[J]. Computer Engineering and Science, for image-based plant disease detection[J]. Frontiers in Plant
2014, 36(7): 1363-1370. (in Chinese with English Science, 2016, 7: 1419-1429.
abstract) [17] Shervin M, Yuri B, Fatih P, et al. Image segmentation using
[6] 刁智华，袁万宾，刁春迎，等. 病害特征在作物病害识 deep learning: A survey [J/OL]. Computer Vision and
别中的应用研究综述[J]. 江苏农业科学，2019，47(5)： Pattern Recognition, 2020, [2020-01-15],
71-74. https://arxiv.org/pdf/2001.05566.pdf.
Diao Zhihua, Yuan Wanbin, Diao Chunying, et al. [18] 刘永波，雷波，曹艳，等. 基于深度卷积神经网络的
Application of disease characteristics in crop disease 玉米病害识别 [J]. 中国农学通报， 2018 ， 34(36) ：
recognition[J]. Jiangsu Agricultural Sciences, 2019, 47(5): 159-164.
71-74. (in Chinese with English abstract) Liu Yongbo, Lei Bo, Cao Yan, et al. Maize diseases
[7] 江海洋，张建，袁媛，等. 基于 MDMP-LSM 算法的黄瓜 identification based on deep convolutional neural network [J].
叶片病斑分割方法[J]. 农业工程学报，2012，28(21)： Chinese Agricultural Science Bulletin, 2018, 34(36): 159-164.
142-148. (in Chinese with English abstract)
Jiang Haiyang, Zhang Jian, Yuan Yuan, et al. Segmentation [19] Muhammad A K, Tallha A, Muhammad S, et al. CCDF:
of cucumber disease leaf image based on MDMP-LSM[J]. Automatic system for segmentation and recognition of fruit
Transactions of the Chinese Society of Agricultural crops diseases based on correlation coefficient and deep CNN
Engineering (Transactions of the CSAE), 2012, 28(21): features[J]. Computers and Electronics in Agriculture, 2018,
142-148. (in Chinese with English abstract) 155: 220-236.
[8] Yang Faguo, Shan Zuyao, Kruggel F. White matter lesion [20] Lin K, Gong L, Huang Y, et al. Deep learning-based
segmentation based on feature joint occurrence probability segmentation and quantification of cucumber anthrax disease
and random field theory from Magnetic Resonance (MR) using convolutional neural network[J]. Frontiers in Plant
images[J]. Pattern Recognition Letters, 2010, 31(9): Science, 2019, 10: 155-164.
781-790. [21] Vijay B, Alex K, Roberto C. SegNet: A deep convolutional
[9] Liu Libo. Research on the segmentation method of rice leaf encoder-decoder architecture for Image segmentation[J].
disease image[J]. Applied Mechanics and Materials, 2012, IEEE Transactions on Pattern Analysis and Machine
2025: 1339-1344. Intelligence, 2017, 39(12): 2481-2495.
[10] Barbedo A J G. A novel algorithm for semi-automatic [22] Olaf R, Philipp F, Thomas B. U-Net: Convolutional networks
segmentation of plant leaf disease symptoms using digital for biomedical image segmentation[J]. Computer Vision and
image processing [J]. Tropical Plant Pathology, 2016, 41(4): Pattern Recognition, 2015, 3: 234-241.
Method for image segmentation of cucumber disease leaves based on

multi-scale fusion convolutional neural networks
Zhang Shanwen, Wang Zhen, Wang Zuliang
(School of Information Engineering, Xijing University, Xi'an 710123, China)
Abstract: Cucumber disease leaf image segmentation is an important step in disease detection and disease type recognition.
To overcome the shortcomings of the classical disease leaf segmentation methods, image semantic segmentation algorithm
based on the Fully Convolution Networks (FCNs) had been widely used in the automatic segmentation of disease leaf images
in the complex background. FCNs replaced the last three fully-connected layers with three convolutional layers so that the
input image with any size could be accepted. FCNs classified images at the pixel level, resolving the problem of semantic
segmentation at the semantic level. FCNs utilized the de-convolutional layer to upsample the feature map of the last
convolutional layer and restored it to the same size of the input image so that each pixel could be generated. At the same time,
the spatial information of the original input image was retained. Then, the pixel-by-pixel classification was carried out on the
above feature maps. The disadvantages of FCNs were that 1) the segmented images by FCNs were still not precise enough.
Although the result of 8 times sampling was much better than 32 times sampling, the result of upsampling was still blurred and
smooth, and was insensitive to the details of the image; 2) Classification of each pixel did not fully consider the relationship
between the pixels. The spatial regularization steps used in the usual segmentation methods based on pixel classification were
neglected and lack of spatial consistency. Aiming at the low recognition accuracy problem of the traditional disease leaf image
segmentation methods, the Multi-Scale Fusion Convolutional Neural Networks (MSF-CNNS) were proposed for cucumber
disease leaf image segmentation. MSF-CNNs consisted of Encoder Networks (ENs) and Decoder Networks (DNs). ENs were
composed of a multi-scale Convolutional Neural Networks to extract multi-scale information of images of disease leaves. DNs
were a nine-point bilinear interpolation algorithm to restore the size and resolution of the input image. In the process of the
model training, a transfer learning method with the gradual adjustment was used to accelerate the training speed and
segmentation accuracy of the network model. The architecture of MSF-CNNs is similar to U-Net and SegNet, mainly
including encoder networks and decoder networks. However, to extract the multi-scale information of the input image, a
multilevel parallel structure was introduced into the encoding network, while a multi-scale connection was introduced into the
decoding network. In the specific coding network, the multi-column parallel CNNs could be used to extract the multi-scale
features of the image of crop disease leaves. In the decoding network, the size and resolution of the image were restored by
introducing the nine-point bisector linear interpolation algorithm as the deconvolution interpolation method. In the structure of
the overall network model, skip join was used to pass the characteristic information extracted from different convolutional
layers, and batch normalization operation was introduced to alleviate the gradient dispersion phenomenon of the model.
Segmentation experiments were carried out on the image database of cucumber disease leaves under the complex background
and compared with the existing deep learning models, such as FCNs, SegNet, U-Net, and DenseNet. The results on the
cucumber disease leaf image dataset validated that the proposed method met the needs of the cucumber disease leaf image
segmentation in the complex environment, with pixel-classification accuracy of 92.38%, the average accuracy of 93.12%,
mean intersection over the union of 91.36 and frequency weighted intersection over the union of 89.76%. Compared with
FCNs, SegNet, U-NET, and DenseNet, the average accuracy of the proposed method is improved by 13.00%, 10.74%, 10.40%,
10.08%, and 6.40%, respectively. After using the progressive learning training method, the training time was reduced by 0.9 h.
The results showed that the proposed method was effective for the image segmentation of the cucumber disease leaves in a
complex environment, and could provide technical support for further research on cucumber disease detection and
identification.
Keywords: image segmentation; convolutional neural networks; disease; vegetable; multi-scale fusion CNNs; transfer learning

张善文 et al - 2020 - 多尺度融合卷积神经网络的黄瓜病害叶片图像分割方法

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

张善文 et al - 2020 - 多尺度融合卷积神经网络的黄瓜病害叶片图像分割方法

Uploaded by

Copyright:

Available Formats

第 36 卷第 16 期农业工程学报 Vol.36 No.

张善文，王振，王祖良. 多尺度融合卷积神经网络的黄瓜病害叶片图像分割方法[J]. 农业工程学报，2020，36(16)：

化层（max-pooling）以及 2 个多尺度连接层（multi-scale 操作能够将不同卷积层输出的相同分辨率特征图在通道

注：Conv 为卷积操作；Deconv 为反卷积操作； 4 个整数乘积中第 1 个数字表示卷积核数量，第 2 个数字和第 3 个数字相乘表示卷积核尺寸，第 4 个数字表

表 1 多尺度融合卷积神经网络模型参数 MSF-CNNs 模型的关键技术包括双三次插值算法、多

(a  2) x 3  (a  3) x 2  1 , x  1 式中 x k 为第 k 批次的样本， xik 为第 k 批次的第 i 个样本，

5）全新学习。全新学习是指对网络模型的所有权重参病害叶片的能力。在前 500 次的迭代训练过程中，模型

生，表明模型的训练过程较为稳定，当完成 1 000 次的迭

出作物叶片的病斑区域。所以，MSF-CNNs 通过所构建 SegNet、U-Net、DenseNet 进行比较 [21-22]。在对试验结

a. 土壤背景 b. 叶片遮挡 c. 多个叶片 d. 叶片残缺 e. 叶片黏连 f. 光照复杂

Method for image segmentation of cucumber disease leaves based on

You might also like

张善文 et al - 2020 - 多尺度融合卷积神经网络的黄瓜病害叶片图像分割方法

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

张善文 et al - 2020 - 多尺度融合卷积神经网络的黄瓜病害叶片图像分割方法

Uploaded by

Copyright:

Available Formats

第 36 卷 第 16 期 农 业 工 程 学 报 Vol.36 No.

张善文，王振，王祖良. 多尺度融合卷积神经网络的黄瓜病害叶片图像分割方法[J]. 农业工程学报，2020，36(16)：

化层（max-pooling）以及 2 个多尺度连接层（multi-scale 操作能够将不同卷积层输出的相同分辨率特征图在通道

注：Conv 为卷积操作；Deconv 为反卷积操作； 4 个整数乘积中第 1 个数字表示卷积核数量，第 2 个数字和第 3 个数字相乘表示卷积核尺寸，第 4 个数字表

表 1 多尺度融合卷积神经网络模型参数 MSF-CNNs 模型的关键技术包括双三次插值算法、多

(a  2) x 3  (a  3) x 2  1 , x  1 式中 x k 为第 k 批次的样本， xik 为第 k 批次的第 i 个样本，

5）全新学习。全新学习是指对网络模型的所有权重参 病害叶片的能力。在前 500 次的迭代训练过程中，模型

生，表明模型的训练过程较为稳定，当完成 1 000 次的迭

出作物叶片的病斑区域。所以，MSF-CNNs 通过所构建 SegNet、U-Net、DenseNet 进行比较 [21-22]。在对试验结

a. 土壤背景 b. 叶片遮挡 c. 多个叶片 d. 叶片残缺 e. 叶片黏连 f. 光照复杂

Method for image segmentation of cucumber disease leaves based on

You might also like

第 36 卷第 16 期农业工程学报 Vol.36 No.

5）全新学习。全新学习是指对网络模型的所有权重参病害叶片的能力。在前 500 次的迭代训练过程中，模型