基于全卷积神经网络模型的语义分割算法

全日制硕士学位论文
基于全卷积神经网络模型的语义分割算法
Semantic Segmentation Algorithm Based on Fully
Convolutional Neural Network Model
作者姓名：姜思瑶
导师姓名：曲长波（高级工程师）
学科专业：软件工程
研究方向：图形图像处理
完成日期： 2020 年 8 月 12 日
辽宁工程技术大学
Liaoning Technical University
关于学位论文使用授权的说明
本学位论文作者及指导教师完全了解辽宁工程技术大学有关保

留、使用学位论文的规定，同意辽宁工程技术大学保留并向国家有关
部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅，学校可
以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影
印、缩印或扫描等复制手段保存、汇编本学位论文。
保密的学位论文在解密后应遵守此协议。
学位论文作者签名：_ _ __ _ 导师签名：__ __ __
2020 年 8 月 12 日 2020 年 8 月 12 日
中图分类号 TP311.5 学校代码 10147
UDC 004 密级公开
辽宁工程技术大学
全日制硕士学位论文
基于全卷积神经网络模型的语义分割算法
Semantic Segmentation Algorithm Based on Fully
Convolutional Neural Network Model
作者姓名姜思瑶学号 471720861
导师姓名曲长波（高级工程师）副导师姓名
申请学位工程硕士培养单位软件学院
学科专业软件工程研究方向图形图像处理
二○二〇年四月
致谢
短暂的研究生生活将要走到尾声了，感叹着时间飞逝，不知不觉研究生生涯也要到了
说再见的时候。虽然两年时间很短，但是收获却很多，在辽宁工程技术大学读研究生的这
段时间，学会了与人交往为人处事的道理，深刻理解了诚朴求实，博学笃行的校训，也知
道了自己的很多不足，需要在未来继续努力，在此之际，特别对那些曾经帮助过我的老师
和同学表示感谢。
本论文从选题、写作、多番修改直至最终的定稿，无一不是在曲老师的悉心指导下完
成的，倾注了曲老师太多的心血。曲老师以独特的思维方式、前瞻而广阔的研究视角和丰
富的学术经验，给我的论文提供了细致宝贵的意见和建议，老师严谨的治学态度和对学术
的热衷与尊重永远都是学生学习的榜样。
首先，我要特别感谢我的导师曲长波老师，研究生的两年里更是时刻帮助我，鼓励我，
督促我，当我有任何困难的时候都能帮助我解决并能给我很好的建议。曲老师虽然平时工
作繁忙，机房的管理事务也很多，但是依旧对我的学业关怀备至。感谢曲老师的知遇之恩，
在研究生期间选我当曲老师的学生，并给了我以后的研究方向和建议，在我泄气的时候不
断鼓励我，让我能一路向前；感谢曲老师的模范作用，在曲老师身上我看到了一个学术人
的特征，一丝不苟，严于律己，对每一件事都认真负责的态度让我深深的敬佩。在学习之
外，曲老师经常与我探讨人生的哲理，让我受益良多。曲老师如父亲般关怀让我在学业上
和生活上抱有更大的动力和热情。千言万语也描绘不出我对曲老师的感激之情。在此，衷
心对曲老师说声，谢谢！
其次，我要感谢我的研究生同学和室友们，与你们一起讨论问题，有什么不理解的相
互探讨，大家相互帮助，不仅在学业上相互进步，也让我收获了友情，感谢他们生活上的
照顾，大家一起努力学习，共同进步。
再次，衷心感谢辽宁工程技术大学给了我这么一个平台，让我进行学术研究和探索，
同时也感谢学院对我的培养。希望自己不忘初心，努力为母校争光！
最后，感谢各位专家和老师们在百忙之中对我的论文进行评审，非常感谢你们的评审
和给出宝贵的意见。
摘要
语义分割是计算机视觉和模式识别领域的研究重点，传统基于图像块的深度卷积神经
网络模型假设图像块内所有像素共享同一标号导致其对图像光谱及纹理结构特征变换敏
感、语义分割结果中目标边缘像素分割精度不高。针对以上问题，提出一种基于残差模块
的全卷积神经网络模型及多尺度空洞卷积模型。首先，基于残差模块的全卷积神经网络模
型以残差模块为基础构建能够实现“端到端”训练的全卷积网络，并采用跳跃连接提高低
层细节特征的传递效率，进而提高图像语义分割精度。其次，多尺度空洞卷积模型在基于
残差模块的全卷积神经网络模型的基础上，利用空洞卷积学习原始图像不同尺度特征，并
组合这些特征以达到同时学习目标细节特征和全局特征的目的。最后，为了验证提出算法
的有效性，将提出的算法应用于 ISPRS Vaihingen 数据集中对图像块的模型进行对比分析。
实验结果表明，采用的全卷积神经网络模型和多尺度空洞卷积模型能够较好地学习图像目
标的边缘细节特征，与传统的基于图像块的神经网络和改进的 SegNet 网络模型相比，其语
义分割精度可达 84.56%和 86.59%。
该论文有图 55 幅，表 5 个，参考文献 50 篇。

关键词：语义分割；全卷积神经网络；残差模块；空洞卷积
I
Abstract
Semantic segmentation is a research emphasis in the field of computer vision and pattern
recognition,Traditional deep convolution neural network model based on image block image
block period, assuming all pixels share the same label its sensitive to image spectrum and texture
feature transformation, semantic segmentation result of target edge pixels segmentation accuracy
is not high.To solve above problems, this paper puts forward a whole convolution neural network
model based on residual module and multi-scale hollow convolution model.First of all, the full
convolutional neural network model based on the residual module constructs the full
convolutional neural network that can realize "end-to-end" training based on the residual module,
and USES jump connection to improve the transfer efficiency of low-level detail features, so as
to improve the image semantic segmentation accuracy.Secondly, on the basis of the full
convolutional neural network model based on the residual module, the multi-scale cavity
convolution model USES the cavity convolution to learn the different scale features of the
original image, and combines these features to achieve the purpose of simultaneously learning
the target detail features and global features.Finally, to verify the validity of the proposed
algorithm, the proposed algorithm is applied to the ISPRS Vaihingen data set to compare and
analyze the image block model.The experimental results show that the full convolutional neural
network model and the multi-scale cavity convolution model can better learn the edge details of
the image target. Compared with the traditional image block-based neural network and the
improved SegNet network model, the semantic segmentation accuracy can reach 84.56% and
86.59%.
The paper has 55 pictures, 5 tables, and 50 references.

Keywords: semantic segmentation;fully convolutional neural network;residual module;
hollow convolution
II
目录
摘要............................................................................................................................................. I
目录......................................................................................................................................... III
图清单......................................................................................................................................... VII
表清单............................................................................................................................................. X
变量注释表..................................................................................................................................... X
1 绪论............................................................................................................................................. 1
1.1 研究背景及目的意义............................................................................................................. 1
1.2 国内外研究现状..................................................................................................................... 2
1.3 研究内容及其主要工作......................................................................................................... 4
1.4 论文结构及章节安排............................................................................................................. 5
2 相关基础理论............................................................................................................................. 6
2.1 全卷积神经网络模型相关基础理论..................................................................................... 6
2.2 典型的深度卷积神经网络模型............................................................................................. 9
2.3 算法评估指标........................................................................................................................ 15
2.4 本章小结............................................................................................................................... 17
3 基于残差模块的全卷积语义分割算法................................................................................... 18
3.1 基于残差模块的全卷积神经网络模型............................................................................... 18
3.2 实验结果分析........................................................................................................................ 20
3.3 本章小结................................................................................................................................ 34
4 基于全卷积神经网络模型的语义分割算法........................................................................... 35
4.1 多尺度空洞卷积神经网络模型........................................................................................... 35
4.2 实验结果分析....................................................................................................................... 37
4.3 本章小结............................................................................................................................... 44
5 结论与展望............................................................................................................................... 45
5.1 结论....................................................................................................................................... 45
III
5.2 未来展望............................................................................................................................... 45
参考文献....................................................................................................................................... 46
作者简历....................................................................................................................................... 49
学位论文原创性声明................................................................................................................... 50
学位论文数据集........................................................................................................................... 51
IV
Contents
Abstract......................................................................................................................................... II
Contents....................................................................................................................................... III
List of Figures............................................................................................................................ VII
List of Tables................................................................................................................................. X
List of Variables............................................................................................................................ X
1 Introduction.................................................................................................................................1
1.1 Research background and purpose significance........................................................................ 1

1.2 Research status at home and abroad.......................................................................................... 2
1.3 Research content and main work...............................................................................................4
1.4 Thesis structure and chapter arrangement................................................................................. 5
2 Related basic theories.................................................................................................................6
2.1 Basic Theory Related to Fully Convolutional Neural Network Model.....................................6

2.2 Typical deep convolutional neural network model....................................................................9
2.3 Algorithm evaluation index..................................................................................................... 15
2.4 chapter summary......................................................................................................................17
3 Fully convolutional semantic segmentation algorithm based on residual module............. 18
3.1 Fully convolutional neural network model based on residual module.................................... 18

3.2 Analysis of results....................................................................................................................20
3.3 chapter summary......................................................................................................................34
4 Semantic segmentation algorithm based on fully convolutional neural network model... 35
4.1 Multiscale hollow convolutional neural network model......................................................... 35

4.2 Analysis of results....................................................................................................................37
4.3 chapter summary......................................................................................................................44
5 Conclusion and Outlook...........................................................................................................45
5.1 Conclusion............................................................................................................................... 45
5.2 Future Outlook.........................................................................................................................45
V
References.....................................................................................................................................46
Author’s Resume......................................................................................................................... 49
Declaration of Thesis Originality............................................................................................... 50
Thesis Data Collection.................................................................................................................51
VI
图清单
图序号图名称页码
图 2.1 卷积原理 6
Figure 2.1 Principle of convolution 6
图 2.2 池化层原理 7
Figure 2.2 Principle of pool layer 7
图 2.3 ReLU 函数 8
Figure 2.3 ReLU function 8
图 2.4 AlexNet 10
Figure 2.4 AlexNet 10
图 2.5 VGGNet 10
Figure 2.5 VGGNet 10
图 2.6 Inception 基本结构 11
Figure 2.6 Basic structure of perception 11
图 2.7 Inception V1 网络结构 11
Figure 2.7 Network structure of Inception V1 11
图 2.8 3×3 卷积核叠加 12
Figure 2.8 Superposition of 3×3 convolution kernels 12
图 2.9 n×1 卷积核叠加 12
Figure 2.9 Superposition of n×1 convolution kernels 12
图 2.10 Inception 与残差模块的结合 13
Figure 2.10 Combination of inception and residual module 13
图 2.11 随深度的增加网络在 CIFAR10 上的分类错误率 14
Figure 2.11 Classification error rate of CIFAR10 network with increasing depth 14
图 2.12 残差结构 14
Figure 2.12 Residual structure 14
图 2.13 FCN 模型示意图 15
Figure 2.13 Schematic diagram of FCN model 15
图 2.14 IoU 示意图 16
Figure 2.14 IoU schematic diagram 16
图 3.1 全卷积网络模型结构 18
Figure 3.1 Full convolution network model structure 18
图 3.2 实验数据 20
Figure 3.2 Experimental data 20
图 3.3 各类目标及其语义分割结果(一) 22
Figure 3.3 Various targets and their semantic segmentation results（一） 22
图 3.4 各类目标及其语义分割结果（二） 23
Figure 3.4 Various targets and their semantic segmentation results（二） 23
图 3.5 各类目标及其语义分割结果（三） 23
VII
Figure 3.5 Various targets and their semantic segmentation results（三） 23
图 3.6 各类目标及其语义分割结果（四） 24
Figure 3.6 Various targets and their semantic segmentation results（四） 24
图 3.7 各类目标及其语义分割结果（五） 25
Figure 3.7 Various targets and their semantic segmentation results（五） 25
图 3.8 局部原始图像及其分类结果（一） 26
Figure 3.8 Local original image and its classification results（一） 26
图 3.9 局部原始图像及其分类结果（二） 26
Figure 3.9 Local original image and its classification results（二） 26
图 3.10 局部原始图像及其分类结果（三） 27
Figure 3.10 Local original image and its classification results（三） 27
图 3.11 局部原始图像及其分类结果（四） 28
Figure 3.11 Local original image and its classification results（四） 28
图 3.12 局部原始图像及其分类结果（五） 29
Figure 3.12 Local original image and its classification results（五） 29
图 3.13 局部原始图像及其分类结果（六） 29
Figure 3.13 Local original image and its classification results（六） 29
图 3.14 与人工标记结果对比的差异（一） 30
Difference between results of manual marking and that of manual marking
Figure 3.14 30
（一）
图 3.15 与人工标记结果对比的差异（二） 30
Figure 3.15 30
（二）
图 3.16 与人工标记结果对比的差异（三） 31
Figure 3.16 31
（三）
图 3.17 与人工标记结果对比的差异（四） 31
Figure 3.17 31
（四）
图 3.18 与人工标记结果对比的差异（五） 32
Figure 3.18 32
（五）
图 3.19 语义分割精度与目标像素占比的相关性 34
correlation between semantic segmentation accuracy and target pixel
Figure 3.19 34
proportion
图 4.1 多尺度空洞卷积神经网络模型 36
Figure 4.1 Multiscale void convolution neural network model 36
图 4.2 空洞卷积 37
Figure 4.2 Void convolution 37
图 4.3 多尺度空洞卷积过程 37
Figure 4.3 Multi-scale hole convolution process 37
VIII
图 4.4 局部原始图像及其分类结果（一） 38
Figure 4.4 Local original image and its classification results（一） 38
图 4.5 局部原始图像及其分类结果（二） 38
Figure 4.5 Local original image and its classification results（二） 38
图 4.6 局部原始图像及其分类结果（三） 39
Figure 4.6 Local original image and its classification results（三） 39
图 4.7 局部原始图像及其分类结果（四） 39
Figure 4.7 Local original image and its classification results（四） 39
图 4.8 局部原始图像及其分类结果（五） 40
Figure 4.8 Local original image and its classification results（五） 40
图 4.9 局部原始图像及其分类结果（六） 40
Figure 4.9 Local original image and its classification results（六） 40
图 4.10 与人工标记结果对比的差异（一） 41
Figure 4.10 41
（一）
图 4.11 与人工标记结果对比的差异（二） 41
Figure 4.11 41
（二）
图 4.12 与人工标记结果对比的差异（三） 42
Figure 4.12 42
（三）
图 4.13 与人工标记结果对比的差异（四） 42
Figure 4.13 42
（四）
图 4.14 与人工标记结果对比的差异（五） 43
Figure 4.14 43
（五）
图 4.15 训练数据集中各类占比集全卷积和多尺度空洞卷积分类精度 45
Classification accuracy of full convolution and multi-scale cavity
Figure 4.15 45
convolution of various proportion sets in training data set
IX
表清单
表序号表名称页码
表 3.1 训练集和验证集 21
Table 3.1 training set and verification set 21
表 3.2 三种深度卷积神经网络在实验数据上的语义分割精度 33
Semantic segmentation accuracy of three kinds of deep convolution neural
Table 3.2 33
networks on experimental data
表 3.3 全卷积神经网络对应语义分割结果的 IoU、F1-score 和精度 34
IoU、F1-score and precision of semantic segmentation results corresponding
Table.3.3 34
to full convolution neural network
表 4.1 全卷积和多尺度空洞卷积神经网络语义分割结果定量评价 44
Quantitative evaluation of semantic segmentation results of full convolution
Table 4.1 44
and multi-scale hollow convolution neural network
X
变量注释表
x X 表示该批次内的像素值
E(x) E(x)表示该批次内所有像素的均值
var(x) var(x)表示该批次内所有像素的方差
 表示数据的缩放尺度
 表示数据的平移量。
X = {xi, | i = 1, …, n } 输入图像
xi xi 表示每个像素的 RGB 特征矢量
i i 为像素索引
n n 表示图像总体像素个数
Ni Ni 为像素 i 为中心的卷积核模板范围
j j 为集合内像素的索引
wj wj 表示卷积核模板中第 j 个像素的值
b b 代表偏移矢量，每个模板对应的偏移矢量一致
  表示该批次所有图像中全部像素的均值
  表示对应方差
  表示乘性参数
  表示加性参数
XI
辽宁工程技术大学硕士学位论文
1 绪论
1.1 研究背景及目的意义
[1-3]
语义分割是计算机视觉和模式识别领域的关键技术，其原理是将一些原始数据作为
输入并将它们转换为具有突出显示特征的感兴趣区域的掩模。计算机视觉的早期问题只能
[4-6]
发现一些线条的边缘元素，不能按照人类的感知去分割识别图像。语义分割利用特征区
域的划分，通过大量样本的采集，训练不同特征图片数据样本，利用同一属性得到像素级
别分类识别技术方法，既可以去解决早期识别单一的问题，还可以得到图像的特征像素点，
故该领域得到衍生与扩展。
融合了传统图像分割和目标识别的语义分割技术，属于像素级别的分割技术，主要是
将图像分为几组具有不同语义类型的区域，获取所要的特征像素点。语义分割有两种类别：
(1)标准语义分割，也称为全像素标准语义分割，主要是将每个像素的分类归属于对象
类的过程。
(2)实例感知语义分割，它是标准语义分割或全像素语义分割的子类型，主要是将每个
像素的分类归属于对象类以及该类的实体 ID。
语义分割也是环境感知的一个核心技术，同时也可结合物体检测和图像分类对具体环
[7]
境具备整体的感知。语义分割是应用于自动无人驾驶、地表地质监测、人脸面部分割、
服装服饰分类、医学检测识别和精准农业等领域的技术基础，也是现代智能化分割、无人
[8-11]
自动化控制的关键技术。语义分割可以基于综合性算法的多方面图像处理技术，主要
利用深度学习中深层神经网络算法、随机森林算法、支持向量机方法以及最大似然概率和
决策树分割等方法选择性结合来处理图像优化结果。
然而，基于最大似然(Maximum Likelihood, ML)、随机森林(Random Forest, RF)、支持
向量机(Support Vector Machine, SVM)这类传统语义分割算法采用少量样本构建分割模型，
无法充分利用训练样本特征模型的学习能力较差，普适性不强。深度卷积神经网络模型利
用大量参数模拟输入到输出图像的转换关系，能够从大量标记样本中学习图像的本质特
征，因而具有较强的学习能力。但现有深度卷积神经网络模型大多采用基于图像块的网络
训练方法，该方法对图像全局特征学习能力较弱，语义分割结果中“马赛克”现象严重，
而 SegNet(Semantic Segmentation)等端到端的网络模型虽然能够学习目标的全局特征，并且
在一定程度上克服“马赛克”现象，但网络传播过程易丢失图像细节信息，低层特征与高
层特征融合，细节信息重建效果不甚理想。因此，本文采用残差模块抽象图像特征，并利
用跳跃连接提高低层细节特征的传递效率。在此基础上，为了提高网络模型对不同尺度目
标细节信息的学习能力，设计多尺度空洞卷积，利用空洞卷积提高目标的感受野并提取图
1
像多尺度信息。
1.2 国内外研究现状
卷积神经网络(Convolutional Neural Networks, CNN)是深度学习模型中含有多个卷积

[12-14]
层的人工神经网络模型，主要用来识别特定的二维图像。模型的优势在于权值共享，
自动学习多层次特征并调节网络参数，比传统的机器学习具有更强的特征学习和表达能力
。CNN 模型凭借特征自提取的特点在图像领域中广泛应用，如遥感领域内的图像识别与
[15]
分割。近些年深度学习的语义分割技术越来越成熟，对比传统方法，构建多种网络结构模
型来分割图像提高分割精度。
Sharma 假设图像块内像素具有同一标号，然后人工搭建了一个由卷积层和全连接层构
建的 CNN 模型，该模型能够利用卷积层提取图像特征，再通过全连接层实现特征融合，
。与传统基于像素的 CNN 模型相比，该模型精度提升可
[16]
最终输出图像块中心像素标签
达 11.52%。为了验证基于图像块卷积神经网络模型的有效性，Kussul 等分别构建基于像素
的卷积神经网络模型和基于图像块的卷积神经网络模型，其实验结果再次验证了 Sharma
[17]
通过实验得出的结论。鉴于图像块模型较强的特征学习能力，其在很长一段时间内得到
。Li 等通过不同尺度的、具有明显差异性的图像块构建 CNN 模型，并将
[18-20]
了广泛关注
[21]
其应用于乳腺癌细胞分类。由于基于图像块的具有明显差异的训练样本能够提供明显具
有可分性的图像特征，该算法在原始数据集上甚至取得了 95%的语义分割精度，即便在全
部测试集上的精度也可达 88.89%。为了研究高光谱图像特征与 LiDAR(Light Detection And
Ranging)数据的相关性，Zhang 等设计了一个图像块到图像块的 CNN 模型，并通过二者转
[22]
换关系的学习提高图像特征提取精度。Shu 等通过图像块的叠加提供更多关于高光谱图
像的信息，最终设计面向图像块叠加的 CNN 模块，进一步提高了图像信息的利用效率
[23]
。
虽然基于图像块的 CNN 模型会导致语义分割结果中存在明显的“马赛克”现象，但是图
像块相当于构建了数据的空间及光谱间的相关性。利用这一特征 Zhang 等构建一个适用于
[24]
图像云及云阴影去除模型，并得到了较好的结果。Naceur 等通过引入注意力机制和多值
[25]
权重函数，有效提高了图像块模型的训练精度。Zhang 等则在注意力机制的基础上关注
信息自身的变化，进而自主学习不同类型目标信息的权值，进一步提高了图像块模型的训
[26]
练精度。
随着深度学习技术的快速发展，全卷积神经网络(Fully Convolutional Neural, FCN)模型
以其“端到端”的训练模式深受广大研究者喜爱。FCN 以 CNN 网络为基础架构引入全卷
积层替代传统 CNN 的全连接层，不但解决了传统 CNN 固定输入图像大小的问题，还能够
。2014 年 Deepleb v1 将空洞卷积和 DCNN(Deep
[27]
在一定程度上提高网络模型语义分割精度
Convolutional Neural Network)网络结合,同时采用全连接的条件随机场进行优化，虽然在一
2
[28]
定程度上提高了网络对图像细节信息的学习能力，但需要大量的存储空间。2015 年的
CRFasRNN(Conditional Random Fields as Recurrent Neural Networks)网络结构模型[29]，结合
CRF(Chronic Renal Failure)与 RNN(Recurrent Neural Network)形成端对端的网络，它的核心
是将 CRF 求解推理的迭代过程看成 RNN 的相关运算，嵌入 CNN 模型中，达到真正算法
之间的融合，提高 FCN 的分割精度。2015 年 SegNet 网络结构模型，通过编码器-解码器
的网络结构，利用上采样的方式恢复图像尺寸，提高图像可实际使用的分割精度,内存效
率较高。Badrinarayanan V 等人利用道路场景和 SUN RGB-D 室内场景分割任务对 SegNet
[30]
和较常用的 FCN 以及著名的 DeepLab-LargeFOV

[28] [31]
、DeconvNet 体系结构进行了受控基
准测试，可知 SegNet 具有较好的推理性能、推理时间和较高的推理内存效率。2015 年
Deeplab v2 网络结构模型使用空洞卷积层代替上采样方式，采用多尺度的空间金字塔池化,
如 Chen 提出的 “DeepLab” 系统在 PASCAL(Pattern Analysis,Statistical Modelling and
[32]
Computational Learning) VOC(Visual Object Classes) 2012 语义图像分割任务中设置了新的

技术水平，将精度提升到 75%左右。2016 年 G-CRF 网络结构模型结合高斯特征条件的随
机场和深度学习，应用结构化使模型得到全局最优解。
2017 年 RefineNet(Refinement Network)网络结构模型对解码器结构进行改进，形成
long-range 残差连接，能通过上采样方式融合底层和高层语义特征,如 Lin[33]介绍 RefineNet，
作为一个通用的多路径优化网络，它主要利用了下采样过程中可用的所有信息，从而能够
使用远程连接进行高分辨率预测。通过这种方式，捕获高级语义特性的更深层，可以直接
使用来自早期卷积的细粒度特性进行细化，在具有挑战性的 PASCAL VOC 2012 数据集上
的 IoU 达到了 83.4%，这也是目前最佳的分数。2017 年 Deeplab v3 网络的结构模型对空洞
金字塔层进行了改进，在并行空洞卷积模型中加入了两个 1 × 1 的卷积层。2018 年
ConvCRF(Convolution Conditional Random Field)的网络结构模型将 CRF 引入卷积层中，利
用卷积 CRF 能够比全连接 CRF 获得更高的运算速度。 2019 年 DFANet(Deep Feature
Aggregation Network)的网络结构模型运用深度多层聚合结构的高层特征，在应用轻量级编
码器中将信息聚合，降低运算量。以上网络结构模型主要使用的数据集是 PASCAL VOC、
PASCAL Context 或 Cityscapes。综上可知，网络结构模型所训练的神经网络卷积层数越来
越多，其中对应的分割与识别的速度也越来越高。
对比传统语义分割方法，基于深度学习方法的语义分割是利用多种网络结构模型建立
多层网络去优化图像，近年来许多研究者根据深度学习的方法进行语义分割，将其应用于
不同领域取得显著的效果。
2014 年，Nico Höft[34]提出了向卷积神经网络提供深度信息的新方法，利用具有挑战性
的 NYU Depth V2 数据集，将方向深度直方图(Histogram of Oriented Depths, HOD)描述符合
[35]
简化版本应用于深度通道，从而在高帧率下获得具有竞争力的性能。2015 年，Hong 设计
3
一个具有解译码器的结构，利用深度卷积神经网络的弱监督语义分割算法，生成图像中每
个类别的空间高光，再对其高光区域进行场景分割，该算法在挑战 PASCAL VOC 2012 数
[36]
据集方面显示出了显著的性能改进。2016 年，Wang 等人提出了一种新的基于全卷积网
络的深度神经网络来识别肌肉和混乱区域，解决了医学训练数据有限的问题，以训练我们
[37]
的深度神经网络，该方法也可扩展到医学成像的应用领域。2017 年，Gao 等人利用语义
分割中 convolution-deconvolution 神经网络的方法,提出了利用深度学习分割不同夜视图
像，可用于预测夜视图像中各像素的场景语义类别，实现无人驾驶车辆的夜间环境感知，
[38]
对夜间自动驾驶具有现实意义。2018 年，G 等人基于深度学习的语义分割方法，在一个
低功耗的移动处理器上实时处理完整的 VGA(Video Graphics Array)图像。可以进一步处理
多个图像，也不需要特定的领域知识来实现高帧率，适用于最小的移动硬件。2019 年，Liu
[39]
基于深度残差学习、语义图像分割和卷积概念，提出了一种新的 DL 架构，命名其为
CloudNet ，增强了从 Sentinel-2 图像中对云和霾进行分类的特征提取能力，在支持
LULC(Land Use and Land Cover)中的自动变化检测。
提出了一个基于 RGB-D(Red Green Blue Depth)图像的场景语义分割网
[40]
代具亭等人
络，该网络通过融合多级 RGB 网络特征图和深度网络特征图，使卷积神经网络语义分割
的准确率有效提高，同时根据带孔的卷积核提出了具有捷径恒等连接的空间金字塔结构来
通过全卷积神经网络( Fully Convolutional
[41]
提取高层次特征的多尺度信息。张宏鸣等人
Networks, FCN) 的语义分割模型进行轮廓提取。利用无人机采集正影像并进行标注，以
VGG 19(Visual Geometry Group 19)网络为基础，通过多尺度特征融合的方式实现 FCN 8s
结构，使用 Tensorflow 深度学习框架构建 FCN 提取模型并对数据集进行数据增强，分割
后放入 FCN 模型训练和测试。罗会兰、张云阐述了图像语义分割最新的研究成果和方
[42]
法，从三个角度综述了基于深度卷积神经网络的图像语义分割模型，分别是基于候选区域
模型、基于全卷积网络模型和基于弱监督学习的语义分割模型，对这三类模型的方法和结
构进行了详细的研究和分析，并在 PASCAL VOC 2012 数据集上对一些代表性的语义分割
算法的性能进行了比较和分析。Cohen 等[43]使用了 RGB、HSL(Hue Saturation Lightness)、
Lab(Commission International EclairageLab) 和 YIQ(Brightness In-phase Quadrature-phaes)、
YcBcr 等多个颜色空间对图像进行分割。Felzenszwalb 等 [44] 提出了将方向梯度直方图
(Histogram of Oriented Gradients, HOG)特征算子应用于图像分割的方法。
1.3 研究内容及其主要工作
本文主要对现有深度卷积神经网络模型存在的问题，结合残差模块和跳跃连接技术，
构建了面向图像语义分割的全卷积神经网络模型，并在此基础上进一步设计多尺度空洞卷
积模块，提高网络模型对图像细节信息的学习能力。本文主要工作集中在以下两个方面：
4
(1)针对基于图像块的深度卷积神经网络模型以图像块内所有像素共享一个标号为前
提导致网络语义分割结果的边缘存在马赛克现象的问题，本文利用残差模块和跳跃连接提
高网络模型的特征传递效率，构建全卷积神经网络模型。该模型能够有效传递图像细节信
息，保持图像像素间的位置及光谱特征相关性。
(2)针对局部细节及全局特征像素占比较少等问题，本文在上述全卷积神经网络模型的
基础上，进一步利用空洞卷积提高图像特征的传递效率，同时以空洞卷积为基础，设计多
尺度模型，提取图像不同尺度上的目标特征，进一步提高网络模型对局部细节及全局特征
的学习能力。此外，多尺度空洞卷积还能有效提高网络对训练样本中像素占比较少的目标
特征的学习能力。
1.4 论文结构及章节安排
本文共分为五个章节，其结构组织如下：
第一章：绪论。本章节首先介绍了语义分割的研究背景和意义，然后介绍了国内外研
究现状，引出了基于深度学习的语义分割方法研究，最后，总结本文主要研究的内容和工
作以及本文结构和章节安排。
第二章：相关基础理论。本章首先介绍了全卷积神经网络的基本结构以及损失函数，
其次介绍了全卷积神经网络的基础理论，包括早期卷积神经网络以及全卷积神经网络的优
势。其次介绍了几种典型的全卷积神经网络模型，包括对 AlexNet、ResNet 等理论介绍。
最后介绍了算法评估指标。
第三章：基于残差模块的全卷积语义分割算法。本章首先介绍了网络模型的整体结构
和计算方法，其次介绍了 ISPRS Vaihingen 数据集和数据预处理，最后在数据集上进行实验
及分析，主要是本文算法与传统基于图像块的卷积神经网络模型和改进的 SegNet 模型相
比，用算法评估指标来衡量分割系统的作用及性能，最后对比出一个最优的语义分割算法。
第四章：基于全卷积神经网络的语义分割算法。本章首先介绍了基于多尺度的空洞卷
积神经网络模型的整体结构，运用的是第三章的 ISPRS Vaihingen 数据集和数据预处理，最
后在数据集上进行实验及分析。
第五章：结论与展望。本章对全篇进行概括总结，找出研究内容和创新方面的不足，
指出后续研究过程中可以进一步探索的研究点。
5
2 相关基础理论
2.1 全卷积神经网络模型相关基础理论
全卷积神经网络主要由卷积层、池化层、激活函数、批标准化层、Dropout 层和损失
函数构成。下面逐一介绍各层作用及基本原理。
2.1.1 卷积神经网络的基本结构
(1)卷积层
卷积层是卷积神经网络学习图像特征的核心部分，该层将卷积核视为模板并通过权值
共享的方式将卷积核中心对应像素与其邻域像素特征混合，进而达到提取图像特征的目
的。卷积操作是一种加权平均操作，虽然其运算较为复杂但有利于简化图像表达方式。假
设输入图像为图 2.1 左侧矩阵，卷积核为中心深色框内右下角所示数字，卷积操作是将卷
积核与对应位置图像像素值相乘并求和，然后将其作为卷积核中心像素的输出值。图 2.1
所示为采用 3×3 大小的卷积核卷积 5×5 大小的图像，由于卷积核不能超出图像范围，卷积
后输出图像尺寸为 3×3。在实际操作中，可以通过在图像周围补零的方式保证输入图像与
输出图像尺寸的一致性。此外，卷积核在图像上滑动，在实现权值共享的同时能够保证图
像特征提取结果的一致性。卷积核滑动的步长是影响图像特征提取结果和输出结果尺寸的
重要因素。当滑动步长较大时，计算效率明显提升但特征提取结果相对粗糙，此时输出图
像尺寸会变小，需采用增大补零范围的方式保障输出图像大小与输入图像一致。
图 2.1 卷积原理
Figure2.1 Principle of convolution
卷积操作利用卷积核在图像上滑动的方式提取图像特征，实际上只能提取图像的局部
特征。为了能够使卷积核在整幅图像特征提取中发挥作用，卷积核学习到的特征必须足够
通用。在卷积神经网络中，采用每层多卷积核提取多特征以及多卷积层叠加的方式保证网
6
络能够提取图像的不同特征，同时使得图像特征提取具有全局性。
(2)池化层
由于卷积神经网络采用大量的卷积核保障图像特征提取的全面性，导致卷积神经网络
参数量较大，同时卷积神经网络不限制图像输入输出尺寸，当输入图像尺寸较大时显存占
用较大，容易导致计算资源不足。而减少卷积核数量无法保障网络学习到图像中全部目标
特征进而无法保障网络输出精度，降低输入图像尺寸会导致网络模型无法“看”到占据较
大区域目标的完整形态，使其无法学习到目标的全局特征。为了提高网络对不同尺寸目标
的学习能力、减少网络对显存的需求，卷积神经网络多采用池化层减小图像尺寸、保障卷
积核能够“看”到目标的全局特征进而学习全局特征。池化层实际上是将感受野内部的全
部像素用一个或多个像素表达进而达到减小图像尺寸的操作。常用的池化方式有最大池化
和平均池化。最大池化就是将感受野内所有像素的最大值作为输出值,其中池化层原理如
图 2.2 所示，该池化层尺寸为 2×2 像素，将感受野中最大的值作为输出值保留其余值并丢
掉不用的，4×4 像素图像经 2×2 像素池化层后输出尺寸为 2×2 像素。平均池化原理与最大
池化原理类似，只不过用平均值代替最大值。目前大量实验表明最大池化效果较好，因此
大部分网络中采用最大池化作为池化层。
图 2.2 池化层原理
Figure 2.2 Principle of pool layer
(3)激活函数
卷积操作虽然复杂，但本质是一种线性变换，无法处理具有非线性分布特征的数据。
然而，实际应用中的大部分数据不满足线性分布特征，为了能够将卷积神经网络应用于实
际数据，需采用非线性激活函数将其线性特征转化为非线性特征以提高网络模型的拟合能
力。ReLU(Rectified Linear Units)函数是当前应用最为广泛的函数之一。该函数直接输出大
于 0 的输入数据，但当输入数据小于 0 时，函数输出为 0。其计算公式如下：
y = max (0, x) (2.1)
ReLU 函数如图 2.3 所示，其中横坐标为  ，纵坐标为  ，ReLU 函数的形式与 Sigmoid
和 Tanh 函数有明显区别，它相当于一个过滤器，将小于 0 的输入数据过滤掉而不影响大
7
于 0 的输入。这种方法在大于 0 的区间解决了梯度消失问题，只需判断输入是否大于 0，
计算速度和收敛速度较 Sigmoid 和 Tanh 函数均有明显提升。然而，ReLU 函数同样存在非
0 均值的问题。此外，应用 ReLU 激活函数时，有些神经元可能永远也不会被激活，该问
题成为 Dead ReLU 问题。产生 Dead ReLU 问题可能的原因主要有以下两点：糟糕的初始
化和较高的学习率。当参数初始化不理想时可能会导致部分神经元无法参与到反向传播过
程因而无法实现参数更新。当学习率较高时会导致训练过程参数更新太过明显而使网络陷
入 Dead ReLU 问题。目前解决 Dead ReLU 问题的主要方法是采用 Xavier 初始化方法，同
时避免采用过大的学习率以及学习率自更新等方法。
图 2.3 ReLU 函数
Figure2.3 ReLU function
(4)批标准化层
卷积神经网络通常假设每个批次内的数据均服从独立同分布。但随着网络层数的加
深，输入数据经过不同卷积层的输出结果不再满足独立同分布，且网络训练过程中，每层
参数不断变换，导致每个隐含层的输出结果不甚稳定。批标准化层就是为了解决不同隐含
层输出结果不满足独立同分布而提出的。批标准化实际上就是将该轮迭代数据转换成均值
为 0 方差为 1 的标准正态分布，然后将满足独立同分布的数据输入到下一个卷积层，对每
层输出结果均做批标准化，保证数据分布的稳定性，进而提高网络学习效率。批标准化的
本质是规范化数据，以保障数据特征的稳定性。批标准化采用如下公式计算：
x  E  x
xˆ  (2.2)
var  x 
其中，x 表示该批次内的像素值，E(x)表示该批次内所有像素的均值，var(x)表示该批次内
所有像素的方差。
虽然将数据变成均值为 0 方差为 1 的标准正态分布能够为卷积神经网络提供稳定的数
据特征，解决传统网络训练过程中存在的“数据漂移”现象，但服从标准正态分布的数据
会导致网络表达能力下降。为了解决该问题，经典的批标准化算法会在每个神经元加上表
示尺度缩放和平移的两个参数，如下式：
8
y  axˆ  b (2.3)
其中， 表示数据的缩放尺度， 表示数据的平移量。
(5)Dropout 层
随着卷积神经网络层数的不断加深，参数量急剧增长，但随之而来的是网络对数据的
过拟合。深度卷积神经网络出现过拟合的主要原因是参数过多，总能找到一组参数能够将
训练样本中的输入数据转换为输出数据。然而，网络对训练样本过拟合会导致其泛化能力
下降。为了解决该问题，Dropout 层随机丢掉网络中部分神经元的连接关系，再通过修改
网络向前传播参数，使网络模型的拟合训练样本中数据特征的同时减少隐含层神经元的连
接，以达到防止过拟合的目的。
2.1.2 损失函数
训练深度卷积神经网络的目的实际上是寻找损失函数最小的参数，其本质是寻找最优
解的过程。那么损失函数的构建会直接影响卷积神经网络的训练结果。目前，深度卷积神
经网络语义分割模型中较为常用的是交叉熵函数，定义如下：
CrossEntropyLoss    yi log  yˆi   1  yi  log 1  yˆi   (2.4)
交叉熵函数随目标像素标签预测结果概率的降低而增加，交叉熵函数越大，表明预测
结果与实际标签差异越明显；交叉熵越小，表明预测结果越理想。由于交叉熵函数通常计
算所有像素预测结果的和，当预测结果中出现噪声时，交叉熵函数会明显增大。
2.2 典型的深度卷积神经网络模型
2.2.1 AlexNet
AlexNet 自 2012 年 ILSVRC (ImageNet Large Scale Visual Recognition Challenge)大赛中

以较大优势一举夺魁，促进了深度卷积神经网络的进一步发展。实际上 AlexNet 的网络结
构与 LeNet 基本相似[45]。AlexNet 包含 8 层网络结构如图 2.4 所示，其中前 5 层为卷积层，
后 3 层为全连接层。AlexNet 包含 650,000 个神经元，六千万参数。为了保障网络的顺利运
行，作者 Alex 利用两个 GPU 并行训练该网络模型。虽然理论上采用一个 GPU(Graphics
Processing Unit)和采用两个 GPU 的网络训练结果应该一致，但实验表明采用双 GPU 训练
网络模型 top-1 和 top-5 精度能够分别提升 1.7%和 1.2%。AlexNet 采用 ReLU 作为激活函数，
相比于 sigmoid 函数和 tanh 函数有效提升了模型训练时间。
9
图 2.4 AlexNet 网络结构模型
Figure 2.4 Structure of AlexNet
2.2.2 VGGNet
VGGNet 是牛津大学和 Google DeepMind 公司共同开发的深度卷积神经网络模型[46]。

该模型获 2014 年 ILSVRC 比赛亚军，其 top5 错误率可达到 7.5%。相比于 AlexNet，VGGNet
的网络层数更深，特征提取能力更强，至今仍作为基础模型广泛应用于不同目标的深度卷
积神经网络模型结构设计中。其网络模型结构如图 2.5 所示。VGGNet 输入图像尺度设计
为 224×224×3 像素，随卷积层和池化层的叠加，卷积核数量成倍增长。实际上两个 3×3 卷
积核叠加相当于一个 5×5 卷积核，三个 3×3 卷积核叠加相当于一个 7×7 卷积核，然而 3×3
卷积核叠加的参数量明显小于大尺度卷积核，且 3×3 卷积核的非线性操作更多，更有利于
提高网络模型的特征学习能力。VGGNet 的一个创新之处在于全部采用 3×3 卷积核，一方
面通过加深网络层次同时结合池化层能够提高感受野，另一方面能够有效降低网络参数
量，提高网络学习能力。此外，VGGNet 采用 1×1 卷积层来增加网络模型的线性变换。1×1
卷积不改变图像尺度，但可用来将多通道特征重组，拓展网络通道数或将较大通道数的网
络模型改成小通道数。VGGNet 包含不同级别的网络模型，其中 VGGNet-16 最为常用。
图 2.5 VGGNet 网络模型结构
Figure 2.5 Structure of VGGNet
10
2.2.3 GoogLeNet
GoogLeNet 发展到现在共有 4 个版本，其中 GoogLeNet Inception V1 的网络模型比

AlexNet 更深、更宽。GoogLeNet Inception V1 包含 22 层网络结构，约 500 万个参数，约
为 AlexNet 参数量的十二分之一，约为 VGG 的三分之一[47]。众所周知，较大的网络模型
应用于较小的数据集时，由于参数量过多训练样本较少容易产生过拟合现象。Dropout 证
明了其解决过拟合现象的能力但解决过拟合的能力有限。另一个思路就是将网络连接变成
稀疏连接。Google 团队基于该思想，设计了如图 2.6 所示的 Inception 结构。该结构通过设
计稀疏网络结构产生较为稠密的数据，一方面增加了卷积神经网络的表现，同时还能够保
障计算效率。该结构主要采用 1×1、3×3 和 5×5 卷积核提取图像特征同时并联一个 3×3 的
池化操作。这种设计能够明显增加网络宽度，还能够提高网络对不同尺度目标的学习能力。
图 2.6 Inception 基本结构
Figure.2.6 Basic structure of perception
然而，最基本的 Inception 结构需要在每一层的输出上做 5×5 的卷积，导致其计算量较

大。为了避免这种情况，Google 团队在每个 3×3 和 5×5 卷积核以及池化层前加上 1×1 卷积
核，先降低特征图维度，再利用 Inception 结构提取图像特征，其结构如图 2.7 所示。这里，
1×1 卷积核不但能够减少数据维度，还能够用于修正 ReLU 函数。
图 2.7 Inception V1 网络结构
Figure.2.7 Network structure of Inception V1
11
基于 Inception V1 设计的 GoogLeNet 网络结构，该结构中 Inception 模块可增加核修改。

实际上，该版本的 GoogLeNet 在网络最后利用平均池化层来代替全连接层，以进一步减少
参数量。其实验表明，利用平均池化代替全连接能够提高 0.6%左右的精度。不过，为了保
障输出数据结构的灵活性，GoogLeNet 依旧以全连接层结束。此外，为了进一步削弱梯度
消失现象的影响，该模型在网络上额外增加了两个辅助 softmax 函数，用于更好地向前传
导梯度。其最终损失函数是辅助 softmax 函数和网络 softmax 函数的加权，其中辅助 softmax
函数权重设置为 0.3。
GoogLeNet Inception V2 单纯增加网络的卷积核深度，虽然能够在一定程度上提高网
络表现，但会导致计算效率有明显下降的趋势。因此，Google 团队以不增加过多计算量提
高网络模型表现为目的，设计了 GoogLeNet Inception V2。这里主要用到卷积分解理论。如
图 2.8 所示，大的卷积核对应较大的感受野，但同时也会带来更多参数。如 5×5 的卷积核
有 25 个参数，但 3×3 卷积核只有 9 个参数。然而，如果用两个 3×3 卷积核代替 5×5 卷积
核，不但能够达到与 5×5 卷积核类似的特征提取效果，还能只用到 5×5 卷积核参数量的
18/25。进一步，用 2 个 3×1 的卷积替换一个 3×3 的卷积保证感受野的同时降低参数量，3×3
卷积核叠加如图 2.9 所示。
图 2.8 3×3 卷积核叠加
Figure.2.8 Superposition of 3×3 convolution kernels
图 2.9 n×1 卷积核叠加
Figure.2.9 Superposition of n×1 convolution kernels

12
GoogLeNet Inception V3 的一个最重要的改进是卷积分解，同时进一步加深网络层次，

并通过每层后叠加 ReLU 函数的方式增加网络的非线性[48]。
GoogLeNet Inception V4 研究了 Inception 模块与残差模块的结合，其中残差模块来自
ResNet（后文会介绍）。该结合模块如图 2.10 所示，该方式通过跳跃连接和 1×1 卷积结合
的方式，有效防止网络层数加深导致的网络学习能力明显下降的问题[49]。
图 2.10 Inception 与残差模块的结合
Figure.2.10 Combination of inception and residual module
2.2.4 ResNet
ResNet 是微软何凯明团队为了解决深度卷积神经网络随着网络层数加深模型精度下
降的问题而提出的[50]。图 2.11 展示了随深度的增加网络在 CIFAR10 上的分类错误率，其
中横轴为迭代次数，纵轴为错误率。不难看出，20 层和 30 层网络模型错误率基本接近，
但 44 层和 56 层网络错误率较浅层的网络模型明显升高。当然，CIFAR10 数据集偏小，导
致其能够支撑的网络层数较少，但网络衰退问题确实会影响其在不同训练样本上的表现。
网络衰退问题不是过拟合导致的，因此传统解决过拟合的方法（如 Dropout、ReLU 激活函
数、批归一化以及 Xaiver 初始化等方法）均无法阻止网络衰退。在不了解深度卷积神经网
络特征学习机制的情况下，贸然叠加卷积层，无限制地增加网络深度并非行之有效的。
13
图 2.11 随深度的增加网络在 CIFAR10 上的分类错误率
Figure2.11 Classification error rate of CIFAR10 network with increasing depth
网络衰减可能是由于卷积层叠加的过程中信息丢失导致的。他们提出如图 2.12 所示的

残差结构，该结构将卷积层的上一层与卷积后的输出结果叠加，并通过学习网络残差来优
化模型参数。如图 2.12 所示基于残差结构的 ResNet 能够在不明显升高分类标准差的情况
下超过 100 层。ResNet 的问世为更深层的网络结构设计提供了可能，也推动了深度卷积神
经网络的进一步发展。解决了网络衰减问题，才为网络模型设计提供了更多的可能。
图 2.12 残差结构
Figure2.12 Residual structure
2.2.5 FCN
CNN 可学习到多个层次的特征并且在多层结构中能自动学习特征。其本质在卷积之后
会接上若干个全连接层，主要是将卷积层产生的特征图与固定长度的特征向量形成映射关
系，可学习大量的输入到输出的映射，但 CNN 的缺点也很明显，需要大数据量和训练所
需时间比较长。
FCN 对于图像可以直接进行像素级的分类，可解决语义分割中常见的语义像素级别的
问题。本质是将传统 CNN 中的全连接层转化成一个个的卷积层， FCN 可以输入任意尺寸
14
的图像，而不用向传统 CNN 一样，要求具有同样尺寸的训练图像和测试图像，而是采用

反卷积层对最后一个卷积层的特征图进行上采样，使它能够恢复到输入图像相同的尺寸，
从而对每个像素都产生一个预测同时可保留原始输入图像中的信息，最后在上采样的特征
图中进行像素的分类。也就是说在传统的 CNN 中，前五层是卷积层，第六层和第七层分
别是一个长度为 4096 的一维向量，第八层是长度为 1000 的一维向量，分别对应 1000 个
类别的概率。全卷积神经网络模型如图 2.13 所示，FCN 将这三层表示为卷积层，卷积核的
大小（通道数，宽，高）分别为(4096, 1, 1)、(4096, 1, 1)、(1000, 1, 1)。
图 2.13 FCN 模型示意图
Figure 2.13 Schematic diagram of FCN model
2.3 算法评估指标
语义分割网络模型在各类任务中的表现都需要定量的指标进行评估，评估需使用标
准、公认的方法来保证公平性。以下是语义分割最主流的评价指标，用来衡量分割系统的
作用及性能，为了方便理解用 TP 表示正确识别的像素数，用 FN 表示漏识别的像素数，
FP 表示错误识别的像素数，TN 表示正确分类的非目标类样本。根据上述定义可以获得：
(1)交并比(Intersection-over-Union, IoU)
IoU 是一种测量在特定数据集中检测相应物体准确度的一个标准，也就是系统预测出
来的框与原来图片中标记框的重合程度，交并比的示意图如图 2.14 所示，通过语义分割结
果中该类目标与人工标记结果中该类目标的交集与并集之比定义，IoU 越高，二者的相关
度越高，最理想情况是预测框和标记框完全重合，即 IoU=1。IoU 计算公式如下
15
图 2.14 IoU 示意图
Figure2.14 IoU schematic diagram
area ( A)  area ( B )
IoU  (2.5)
area ( A)  area ( B )
(2)精度(Accuracy)
精度是评价图像分割网络主流的技术指标，精度是基于像素标记为基础完成的，然而
精度为实验数据中所有正确分割的像素数与实验数据总像素数之比。
(3)灵敏度(Sensitive)
灵敏度表示的是所有正例中被分对的比例，也就是衡量分类器对正例的识别能力，灵
敏度计算公式如下
TP
TPR  (2.6)
TP  FN
(4)特效度(Specificity)
特效度表示的是所有负例中被分对的比例，也就是衡量分类器对负例的识别能力。特
效度计算公式如下
FP
FPR  (2.7)
FP  TN
(5)F1-Measure
精确率(Precision)也叫作查准确率，也就是正确预测为正的占全部预测为正的比例。精
确率计算公式如下
TP
P (2.8)
TP  FP
召回率(Recall)也叫作查全率，也就是正确预测为正的占全部实际为正的比例。召回率
计算公式如下
TP
R (2.9)
TP  FN
16
F-score 的计算公式如下
F
 2
 1 P * R
(2.10)
PR
F1-score 是一种统计量，也是精确率和召回率的加权调和平均，常用于评价分类模型
的好坏。F1-score 计算公式如下
2* P * R
F1  (2.11)
PR
2.4 本章小结
本章主要介绍了全卷积神经网络的理论基础及目前较为典型的全卷积神经网络模型。
全卷积神经网络结构单元主要包括：卷积层、池化层、激活函数、批标准化层、Dropout
和损失函数。详细阐述了上述结构单元的原理及作用，便于在后续网络模型构建中更好地
搭配使用。在介绍全卷积神经网络基本结构单元的基础上，介绍了几种典型的网络模型结
构以及算法评估指标。随着计算机并行技术的发展 AlexNet 表现出远胜于传统人工智能算
法的特征学习能力，因而带动了深度卷积神经网络的第二次发展。比 AlexNet 更深的
VGGNet 验证了在一定情况下，增加网络深度能够有效提高网络精度。而 VGGNet 同年的
GoogleNet Inception 1 则通过增加网络模型宽度的方式提高模型训练精度。截至目前，
Google 以 Inception 1 为基础已经发展了 4 个版本的深度卷积神经网络模型。然而，随着网
络层数不断加深，网络训练精度反而呈现出负增长的趋势。
17
3 基于残差模块的全卷积语义分割算法
传统 CNN 模型通常在卷积层后连接多个全连接层，将卷积层提取的特征图转换成具
有固定长度的向量，每个向量对应一个类别。然而，对于图像语义分割而言，采用全连接
网络需要输入固定大小的图像，因为在现有结构下全连接层会将输入图像转换成长度固定
的向量。改变图像大小需重新设计网络结构，难以充分利用现有网络模型参数，模型迁移
困难。再者，全连接层参数量较大，神经元越多、连接层数越多，网络训练速度越慢，严
重影响网络应用效率。此外，利用全连接网络实现语义分割，大多数先将原始图像裁剪成
较小的图像块，以尽可能保证每个图像块中的所有像素共享同一类别标号，因为全连接层
只能输出图像块的标号，并将该标号赋予中心像素。较小的图像块无法提供较大的图像特
征，导致网络无法学习较大目标的全局特征。总而言之，在卷积层后面接全连接层，难以
充分利用卷积层提取的图像特征，且基于图像块操作易导致语义分割结果存在马赛克现
象。
3.1 基于残差模块的全卷积神经网络模型
3.1.1 网络模型整体结构
鉴于全连接层参数量大、对输入图像尺寸要求严格等问题，结合图像语义分割任务需
求，本文设计基于全卷积的深度卷积神经网络模型。其模型结构如图 3.1 所示。该网络模
型全部采用 3×3 卷积核，以达到降低模型参数量的目的。同时，为了进一步提高网络模型
的特征学习效率，将 ResNet 模型的残差学习模块引入网络模型设计中，该网络模型分别采
用 3、4、6、3 个残差模块组合，以便达到提高网络模型特征学习能力的目的。
图 3.1 全卷积网络模型结构
Figure3.1 Full convolution network model structure
18
全卷积网络模型(Fully Convolutional Network Model, FCNM)结构如图 3.1 所示，本文采

用的 FCNM 首先利用 64 个 3×3 卷积提取输入图像特征，再通过 3×3 池化层将图像下采样
到原始尺寸的 1/2。此时这 64 个特征是相互独立的，采用 64 个卷积核的主要目的是提取
图像不同类型特征。为了进一步融合 64 个相互独立的图像特征，并在此基础上进一步抽
象特征，论文引入残差模块。在残差模块中，首先利用 1×1 的卷积核构建 64 个独立特征
的相关性，进一步再利用 3×3 卷积核抽象具有相关性的 64 个特征的抽象特征，最后再构
建该抽象特征的相关性，并进一步将其维数拓展至二倍。论文在最后一步将特征拓展的主
要原因是组合图像低层特征的方式要比底层特征的数量更多，因而需要采用更多的数据去
描述底层特征的组合和抽象。与第一个残差模块类似，后面连续采用三个残差模块提取图
像特征。这里采用残差模块的主要目的是它能够使网络层数更深、且学习精度不退化。此
外，为了进一步在提高网络模型对图像细节信息的学习能力，在残差内部采用跳跃连接，
将低层特征与高层特征组合，保证特征抽象过程中低层细节特征的作用强度。论文中残差
模块的运行次数分别设置为 3、4、6、3 次。最后通过最大池化的方式再次提高感受野范
围，实现全局目标特征提取。
3.1.2 网络模型信息传递过程
令 X = {xi | i = 1, …, n }其中 xi 表示每个像素的 RGB 特征矢量，i 表示像素索引，n 表

示图像总体像素个数，则卷积层的输出结果可表示为：
ci  w
jN i
j
xj b (3.1)
其中 Ni 表示像素 i 为中心的卷积核模板范围，论文中全部采用 3×3 卷积核，该集合中

包含 9 个像素，j 表示集合内像素的索引，wj 表示卷积核模板中第 j 个像素的值，b 表示偏
移矢量，每个模板对应的偏移矢量一致。
经历卷积操作，原始图像的数据分布特征会随之改变，随着卷积层的叠加，该输入特
征会产生进一步漂移，导致网络模型难以稳定地学习图像特征。为了克服该困难，论文采
用批归一化层将卷积层输出结果归一化到均值为 0 方差为 1 的标准正态分布，以便保持数
据特征的稳定性，提高深度卷积神经网络的学习能力。批归一化公式如下：
ci  μ
yi  (3.2)
σ
其中表示该批次所有图像中全部像素的均值， 表示对应方差。实际上，在网络模
型训练过程中，批归一化算法仍旧会受到乘性和加性噪声等方面的影响。因此在批归一化
层中引入可训练的乘性参数和加性参数，进一步提高模型的鲁棒性，其计算公式如下：
yˆ i   yi   (3.3)
19
其中 表示乘性参数， 表示加性参数。

为了增加深度卷积神经网络模型的非线性，再批归一化层后采用 ReLU 激活函数，激
活函数输出结果表示为：
ri  max  0, yˆ i  (3.4)
该激活函数能够使大于零的数据保持不变，而将小于零的数据输出为零。一方面能够
增加算法的非线性，另一方面计算简单不影响网络训练效率。
非线性激活函数后，采用最大池化将原始图像缩小一半，可以增加感受野，还能降低
网络训练过程所需的储存空间，提高计算资源的利用效率。
3.2 实验结果分析
3.2.1 实验数据集
(1)ISPRS Vaihingen 数据集

ISPRS Vaihingen 是 ISPRS(International Society for Photogrammetry and Remote Sensing)
协会为测试 2D 语义分割算法采集并标记的数据集。该数据集由 33 张影像组成，分辨率为
9cm，包含近红外、红和绿三个波段，其中 16 张影像为标记图像，17 张为测试图像。实验
数据如图 3.2 所示，数据集中的原始数据已经预处理，数据集中不存在无数据的空洞。该
数据集主要覆盖城区，包含地面、建筑物、树木、低矮植被、小汽车和其他共 6 类地物。
图 3.2 实验数据
Figure3.2 Experimental data
(2)数据预处理
20
为了更好地训练网络模型，将标记数据的 16 幅图像分成训练数据集和验证数据集，
相关分类结果如表 3.1 所示。
表 3.1 训练集和验证集
Table 3.1 training set and verification set
训练集验证集
top_mosaic_09cm_area1 top_mosaic_09cm_area23 top_mosaic_09cm_area3
top_mosaic_09cm_area15 top_mosaic_09cm_area30
top_mosaic_09cm_area37
在对图像进行分组以后，还需对图像进行裁剪。为了让网络模型既能学习图像的局部
细节特征，又能兼顾目标的全局特征，将原始图像及对应标记样本裁剪成 224×224 像素大
小的图像块，训练图像块后再将其按照裁剪策略的逆过程拼接成原始图像大小。由于深度
卷积神经网络模型卷积层叠加过程对图像中心像素利用率高、对边缘像素利用率低，中心
像素的标签预测结果相对准确，而靠近图像边界的像素预测结果相对较差。为了提高靠近
图像边界的像素语义分割精度，论文将原始图像有重叠地裁剪，其重叠宽度设置为图像块
大小的一半，保证图像中每个目标均有机会出现在图像中心。此外，该种裁剪方法还能够
提高图像的数据量，有利于网络模型更加准确地学习图像特征。
为了让深度卷积神经网络更好地学习图像特征，在图像裁剪后，分别采用翻转和调整
图像亮度的方式进行图像增强，提高目标特征的多样性。翻转主要包括水平翻转和垂直翻
转。图像经过翻转后可提供与原始图像不同方向的特征。由于深度卷积神经网络并非是各
向同性的，训练样本集中包含同一特征、不同角度的图像，有利于网络模型更加完善地学
习图像特征。调整图像亮度实际上是在模拟不同光照等成像条件。虽然实验数据是在较一
致、较明亮的环境下成像，但较高的建筑物仍旧会对低矮的植被、道路等目标造成遮档，
导致同一目标呈现出不同亮度特征。因此利用调整图像亮度的方式增强图像有利于深度卷
积神经网络学习被遮挡目标的特征。
3.2.2 基于残差模块的全卷积神经网络语义分割结果
网络模型训练初始学习率设置为 10-5，在 4 个 Titan XP 上训练，batch size 设置为 8。

初始学习率越高，网络模型学习速度越快，但易导致损失函数出现震荡，难以收敛到最优
21
解。初始学习率越低，网络学习速度越慢，需要迭代的次数越多，越容易导致过拟合。因
此，论文通过大量实验选取 10-5 为初始学习率，并设置其随网络迭代递减。通常来讲，batch
size 越大，图像分布特征越趋于均一化，但会消耗较多的显存空间。论文选取 batch size 为
8 来实现显存空间的最优利用效果。选取图像中 6 种典型目标，将其语义分割结果展示于
图，其中(a1)-( g1)表示原始图像，(a2)-(g2)表示图像对应的标准语义分割结果，(a3)-(g3)表
示论文算法分割结果，图中白色表示地面，蓝色表示建筑物，绿色表示树木，青色为低矮
植被，黄色为小汽车，红色为其他类型地物。
(a1) (a2) (a3)
图 3.3 各类目标及其语义分割结果（一）
Figure3.3 Various targets and their semantic segmentation results（一）
图 3.3(a1)主体为城镇的十字路口，地面上包含较大面积的隔离带、同时画有交通指示
标志，这使得地面这类目标具有明显的光谱不一致性。论文结合残差学习模块设计全卷积
神经网络，能够有效提取图像特征，因而对图像中光谱一致性较差的区域具有较强的适应
能力。如图 3.3(a3)所示，论文结果能够较好地学习地面这类目标对应的光谱及空间纹理结
构特征，不受隔离带、地面标志等本应该出现在地面上的其他类型特征影响。与如图 3.3(a2)
所示人工标记结果比较，论文网络模型将原始图像中小部分隔离带误识别为建筑物（蓝
色）。此外，分类结果中树木、低矮植被等目标与地面部分的边缘较为整齐。图 3.3(a1)左
上角较为茂盛的树木在图 3.3(a2)中标记范围明显小于其实际面积，而论文算法能够将其较
好地识别出来。
(b1) (b2) (b3)
图 3.4 各类目标及其语义分割结果（二）
Figure 3.4 Various targets and their semantic segmentation results（二）
22
图 3.4(b1)包含建筑物、树木、低矮植被和地面。论文算法不但能够有效区分不同类型
目标，且对于诸如建筑物等具有较为笔直的目标边缘也能较好地提取出来。如图 3.4(b3)
所示，建筑物的边缘基本上呈直线型。虽然不断对图像进行卷积会导致图像丢失细节信息，
但实验结果表明全卷积网络模型能够较好地恢复如建筑物边缘等具有直线特征的细节信
息。此外，图 3.4(b3)中对于数据和低矮植被的区分也较为准确，还能够识别图中占据较少
像素的白色小汽车。只有中心被阴影遮挡的小块建筑物未能有效识别。然而对比图中偏上
区域的阴影遮挡部分不难发现，人工标记结果中建筑物和阴影区域所对应的原始图像具有
较强的光谱及纹理特征相似性。这使得算法甚至人类都难以准确区分该种类型目标。
(c1) (c2) (c3)
(d1) (d2) (d3)
图 3.5 各类目标及其语义分割结果（三）
Figure 3.5 Various targets and their semantic segmentation results（三）
树木和低矮植对自然光具有相似的光谱反射特性，通常来讲，单通过其光谱特征较难
区分开来。实际上，自然状态下电磁波对树木的穿透性较强，导致其部分区域光谱反射较
少，与光谱反射较多的区域组合成独特的纹理特征如图 3.5 (c1)所示。这种独特的光谱特征
有利于与低矮植被区分开，但却导致树木目标的边缘难以确认，尤其是在有明显阴影或者
与低矮植被之间的边缘。对比图 3.5(c2)和(c3)不难看出，论文全卷积神经网络对数目主体
部分的提取结果较为准确，但其与阴影和植被的边缘存在一定偏差。图 3.5(c1)上半部分，
在强光照射下，树木具有较为明显的阴影，人工标记结果准确显示树木和受阴影遮挡的地
面位置。然而本文中全卷积神经网络模型将部分树木和地面阴影部分混淆，导致其边缘区
域与人工标记结果存在一定偏差。图 3.5(c1)有小部分树木与低矮植被邻接，但全卷积神经
网络将部分低矮植被分类为树木，只识别出较小的区域。此外全卷积神经网络还能够准确
识别图像中的黄色、灰色小汽车，图右下角被阴影遮挡的植被未能被人工识别出来，但全
23
卷积神经网络模型能够较好地将其识别出来。图 3.5(d1)可看出全卷积神经网络模型对图中
生长不是很茂盛的低矮植被（在近红外、红、绿所组成的标准伪彩色图像中，颜色越红表
示植被生长越茂盛）也具有较强的识别能力。图 3.5(d3)的语义分割结果与图 3.5(d2)的人工
标记结果具有较强的相似性。
(e1) (e2) (e3)
图 3.6 各类目标及其语义分割结果（四）
Figure 3.6 Various targets and their semantic segmentation results（四）
小汽车在图中的占比较小，每辆小汽车占据的像素数目也较少，且汽车的颜色具有较
为明显的差异，如图 3.4(b1)中的白色、图 3.5(c1)中的亮黄色，图 3.6(e1)中的土黄色、灰色。
这导致采用传统算法很难识别出小汽车这一类型目标。论文利用卷积神经网络提取图像的
光谱、纹理、形状等特征，具有较强的特征学习能力，因此在给定足够多训练样本的情况
下，能够较好地提取小汽车这一类型目标。图 3.6(e3)可看出全卷积神经网络模型能够非常
准确地识别图像中的所有小汽车，由于小汽车目标较小且受阴影、分辨率等影响，其边缘
轮廓不够清晰，因此提取结果中小汽车的边缘不甚准确。当小汽车间距离较近时，难以将
每台小汽车单独表示为一个目标，而是将多个小汽车的提取结果连接起来。这种现象不但
在全卷积神经网络的语义分割结果中存在，人工识别小汽车的粘连现象也较为严重。
(f1) (f2) (f3)
(g1) (g2) (g3)
24
图 3.7 各类目标及其语义分割结果（五）
Figure3.7 Various targets and their semantic segmentation results（五）
在给定标记样本中，有一类目标较为特别，该类目标称为其他。这个类别是除了地面、
建筑物、树木、低矮植被和小汽车以外的目标，其所占像素数较少，只在部分图像中出现，
频次低，难以提供足够特征供深度卷积神经网络模型学习。因此，在图像标记中将这类难
以具有共性特征的目标统称为其他。在训练样本中，其他类型目标主要包括游泳池、池塘、
杂乱的小面积人工建筑等而在测试图像中，其他类型地物目标包含池塘、篮球场、具有与
训练数据集中不同特征的小面积人工建筑等目标。能够有效提取包含于训练样本中的目
标，难以识别未包含在训练样本中的目标。图 3.7(f1)最左侧较暗的区域是池塘，在图 3.7(f3)
和图 3.7(f2)可看出论文所采用的全卷积神经网络模型对该种类型目标的提取结果与人工标
记结果基本一致，然而在图 3.7(g1)可看出未包含与训练样本中的篮球场，论文采用的网络
模型将其划分为建筑，其光谱及纹理结构特征确实与土黄色屋顶的建筑较为相似。实验结
果验证了深度卷积神经网络模型对图像特征的学习能力的理解。
3.2.3 与现有网络模型对比
为了进一步分析全卷积神经网络的特征学习能力，将基于图像块的深度学习算法和改
进的 SegNet 算法对比。实验数据中部分原始图像及其分类结果，其中(a1)-(e1)为数据中的
局部原始图像，(a2)-(e2)为基于 Patch 的语义分割结果，(a3)-(e3)为 FCN 语义分割结果，
(a4)-(e4)为本文全卷积神经网络语义分割结果，(a5)-(e5)为原始图像对应的人工标记结果。
(a1) (a2) (a3) (a4) (a5)
图 3.8 局部原始图像及其分类结果（一）
Figure 3.8 Local original image and its classification results（一）
图 3.8(a1)左侧为一条河流，在实验数据中被标记为其他类型地物目标，该类目标包含
多种不同类型地物，且地物间光谱及纹理结构信息差异较为明显。因此，基于图像块的深
度卷积神经网络和改进的 SegNet 均未能有效识别最左侧的河流（地物类别为：其他）。此
外，基于图像块的分类算法目标边缘不够清晰，呈现锯齿状特征。这是由于对应深度卷积
25
神经网络每次输出图像块中心像素的标号，网络分别预测每个像素的语义分割结果，再将
相应结果整合成如图所示的图像表达形式。这种方法需假设输入图像块每个像素的标号均
与中心像素标号一致。然而，当图像中心像素位于目标边缘附近时，无法满足该假设，这
也是导致图像语义分割结果中目标边缘处存在锯齿的主要原因。论文采用全卷积神经网络
学习图像特征，虽然也将原始图像裁剪成较小的区域训练网络模型，但裁剪图像的目的是
更好地利用计算机的计算资源。论文输入图像与输出图像像素一一对应，也就是每个像素
均对应一个表征其类别的标签，这使得网络模型能够更好地学习不同类型地物目标的特
征，而不需要局部像素标号一致的假设。因此，图 3.8(a4)所示语义分割结果与图 3.8(a5)
人工标记结果较为接近，甚至能够提取图像最左侧边界处的小面积植被。
(b1) (b2) (b3) (b4) (b5)
图 3.9 局部原始图像及其分类结果（二）
Figure3.9 Local original image and its classification results（二）
其他这一类型目标在实验数据中占比较小，训练样本中该种类型目标的特征不足，导
致深度卷积神经网络模型往往难以学习到其本质特征。在图 3.9(b1)可看出地面目标在图像
中占比相对较大，但由于地面易受建筑物等遮档，受遮档部分呈现出的特征会明显暗于其
他区域，且与其他受遮档的类型光谱特征较为接近。基于图像块的深度卷积神经网络输入
图像通常较小，以便能够保证图像块内所有像素共享同一标号的假设。因此，基于图像块
的深度卷积神经网络只能学习目标的局部特征，难以学习目标的全局特征，因此将图 3.9(b1)
中受遮档的地面分类为建筑物。改进的 SegNet 模型虽然也能够学习目标的全局特征，但对
于受遮档目标的识别能力较差。如图 3.9(b1)所示，改进的 SegNet 只能够识别部分受遮档
的地面。论文采用全卷积神经网络，既能够学习图像的局部特征，同时还能兼顾图像全局
特征，对同一类型地物的不同特征具有较强的学习能力。改进的 SegNet 依旧采用
Encoder-Decoder 的模式提取图像特征，但是在编码过程易丢失图像细节信息，导致解码过
程无法有效重建该细节信息。在图 3.9(b4)可看出论文采用残差跳跃连接模块，利用卷积核
学习图像信息的同时，将低层细节信息传递下去，因而能够获得较改进的 SegNet 更好的语
义分割结果。与图 3.9 (b5)所示人工标记结果相比，论文采用的全卷积神经网络模型能够较
为准确地识别被遮挡的地面，但是地面边缘与人工标记结果存在一定差异。其原因主要是
深度学习算法容易丢失边缘等细节信息，但同时人工标记结果也不甚准确。
26
(c1) (c2) (c3) (c4) (c5)
图 3.10 局部原始图像及其分类结果（三）
Figure3.10 Local original image and its classification results（三）
图 3.10(c1)为道路路口处的场景，图中道路左下方有 3 辆小汽车，分别是白色、黑色
和黄色。在图 3.10(c2)可看出采用基于图像块的深度卷积神经网络只能提取部分白色小汽
车，无法有效识别黄色小汽车。此外，该算法将黑色小汽车识别为建筑物，其主要原因是
黑色小汽车阴影较为明显，光谱及纹理特征不突出。图 3.10(c3)所示改进的 SegNet 算法则
能够识别出 3 辆小汽车，但与小汽车的实际位置和大小相比，改进的 SegNet 算法识别出的
小汽车明显小于实际小汽车在图像上占据的像素个数，尤其是黑色小汽车和黄色小汽车。
产生该问题的主要原因是实验数据中白色小汽车偏多，黑色和黄色的小汽车样本较少，导
致改进的 SegNet 算法无法有效识别样本中出现频率较低的小汽车。论文采用全卷积神经网
络结合残差学习模块和跳跃连接，对劣势样本具有较好的学习能力，在图 3.10(c4)和图
3.10(c4)可看出语义分割结果与人工标记结果基本上一致，小汽车的位置、大小、姿态均较
为准确。
(d1) (d2) (d3) (d4) (d5)
图 3.11 局部原始图像及其分类结果（四）
Figure3.11 Local original image and its classification results（四）
大部分建筑物在实验数据中表现为深棕色，而图 3.11(d1)所示建筑物分别为较亮的白
色和较暗的灰色，该灰色区域与地面的光谱特征十分接近。基于图像块的深度卷积神经网
络将白色建筑物识别为地面，反而能够较好地识别图像中与地面光谱特征较为接近的灰色
建筑物。这种现象很难用现有的深度卷积神经网络的理解来解释。这也是深度卷积神经网
27
络不具备可解释性导致的。尤其是采用全连接层，将原始图像压缩至固定长度的矢量，且
该矢量长度通常等于实验数据集中目标的类数，在本实验中，矢量长度取 7（包含 6 类地
物和网络训练过程中 0 值对应的目标）。原本被卷积层抽象的信息进一步被全连接层压缩，
导致网络对目标的识别能力较低。因此，图 3.11(d2)所示语义分割结果与图 3.11(d5)所示人
工标记结果具有明显差异。改进的 SegNet 虽然能够识别部分建筑物区域，但边缘区域与建
筑物位置较为贴近。然而，改进的 SegNet 对建筑物主体区域识别结果较差，大面积建筑物
被划分到地面对应的类别中。其原因为白色建筑物在实验数据中和训练样本中均较为少
见，改进的 SegNet 在 Encoder-Decoder 过程中易丢失图像细节信息，导致其很难识别这种
占比较少的建筑物。而论文采用的全卷积神经网络通过残差模块和跳跃连接，有效保障了
图像低层信息到高层信息的传递过程。因而图 3.11(d4)所示语义分割结果能够较好地识别
图中的白色和灰色建筑物。其中，白色建筑物有两处小区域被识别为地面，与图 3.11(d1)
所示原始图像对比，这两处区域与白色建筑物整体的光谱特征不甚相同，导致网络识别出
较小的偏差。然而，三种算法均无法识别图 3.11(d5)所示的红色目标，该目标对应其他类
型地物。由于这些类型目标与箱型货车的特征类似，改进的 SegNet 和论文采用的全卷积神
经网络模型均将其识别为小汽车，而基于图像块的深度卷积神经网络则无法识别该类目
标，直接将其分类为地面。实验表明，深度卷积神经网络模型能够有效学习目标特征的前
提是训练样本能够提供对应目标充足的光谱和纹理结构特征。
(e1) (e2) (e3) (e4) (e5)
图 3.12 局部原始图像及其分类结果（五）
Figure3.12 Local original image and its classification results（五）
图 3.12(e1)大体上包含三个建筑物（图像中心区域两个较大的建筑物和图像左下角较
小的建筑物），由于左下角较小的建筑物占地面积较小且部分区域被树荫遮档，如图 3.12(e5)
所示人工标记结果并未将该目标标记成建筑物，而是标记为地面。图 3.12(e2)和(e3)均未能
有效识别该建筑物。而论文采用的全卷积神经网络模型则能够较好地识别该建筑物主体，
受遮档区域并未能够较好地识别出来。这表明训练样本中同样存在如图 3.12(e5)所示的误
标记区域，但即便训练样本中存在少量的错误标记样本，深度卷积神经网络模型通过对大
量相似目标的学习，能够较好地识别人工标记错误的区域。
28
(f1) (f2) (f3) (f4) (f5)
图 3.13 局部原始图像及其分类结果（六）
Figure3.13 Local original image and its classification results（六）
图 3.13(f1)的图像场景是停车场，但是该场景内大部分小汽车均为白色厢式货车，这
种小汽车表现出的光谱及纹理信息均与部分白色屋顶的建筑物类似在图 3.11(d1)可看出。
对于白色小汽车和白色屋顶这种较易混淆的地物，深度卷积神经网络无法较好地识别。如
图 3.13(f2)所示，基于图像块的深度卷积神经网络将途中大部分小汽车划分到建筑物对应
的类别中。图 3.13(f3)所示改进的 SegNet 语义分割结果和图 3.13(f4)所示的论文采用的全卷
积神经网络语义分割结果虽然优于图 3.13(f2)所示结果，但小汽车和建筑物混淆的情况仍
旧比较明显。这表明当训练样本中具有相同特征的目标被标记为不同类型时，会导致网络
模型对该特征的混淆，最终导致错误的语义分割结果。因此，在标记训练样本时，要尽可
能保证同一特征对应同一类型地物目标。
3.2.4 与标准语义分割结果的差异分析
为了进一步分析不同算法对图像特征学习能力的差异，将深度卷积神经网络的语义分
割结果与人工标记结果对比，图中(a1)-(e1)为基于图像块的深度卷积神经网络语义分割结
果与人工标记结果的差异，(a2)-(e2)为改进的 SegNet 语义分割结果与人工标记结果的差异，
(a3)-(e3)为论文采用的全卷积神经网络语义分割结果与人工标记结果的差异。图中不同类
型目标用不同灰度表示，语义分割结果与人工标记结果的区别用红色表示。
(a1) (a2) (a3)
图 3.14 与人工标记结果对比的差异（一）
29
Figure3.14 Difference between results of manual marking and that of manual marking（一）
图 3.14(a1)-(a3)为三种不同深度卷积神经网络算法对图 top_mosaic_09cm_area2 语义分

割结果与人工标记结果之间的差异。不难看出，基于图像块的语义分割结果与人工标记结
果差异最大，论文采用的全卷积神经网络语义分割结果与人工标记结果差异最小。对于图
左上角即为图 3.14(a1)所示区域，基于图像块的深度卷积神经网络模型和改进的 SegNet 均
无法有效识别图中河流，因此该区域与人工标记结果存在较为明显的区别。而论文采用的
全卷积神经网络对该区域只有边缘约 1-2 个像素的位置与人工标记结果存在差异。
(b1) (b2) (b3)
图 3.15 与人工标记结果对比的差异（二）
Figure3.15 Difference between results of manual marking and that of manual marking（二）
图 3.15(b1)-(b3)为图 top_mosaic_09cm_area12 对应语义分割结果与人工标记结果之间

的差异。三种深度卷积神经网络模型对建筑物的分类结果均较为准确，其差异明显区域主
要是树木和低矮植被之间的混淆。论文采用全卷积神经网络语义分割结果中树木和低矮植
被的混淆明显少于图像块的深度卷积神经网络模型和改进的 SegNet 模型。此外，图左下角
放大部分原图为建筑，由于该建筑呈现较深的灰色与大多数建筑物的棕色不同较难识别。
三种深度卷积神经网络方法未能准确识别，采用全卷积神经网络模型能识别部分建筑物。
(c1) (c2) (c3)
图 3.16 与人工标记结果对比的差异（三）
Figure3.16 Difference between results of manual marking and that of manual marking（三）
30
图 3.16(c1)-(c3)为图 top_mosaic_09cm_area35 对应语义分割结果，该图像主要覆盖城

区部分，建筑物被树木和低矮植被包围。如图 3.16(c1)所示，基于图像块的深度卷积神经
网络难以有效区分树木和低矮植被，导致其语义分割结果与人工标记结果差异较为明显。
类似情况在改进的 SegNet 模型上也较为严重。而在图 3.16(c3)可看出论文采用的全卷积神
经网络模型能够较好地区分这两种类型地物，因而其语义分割结果与人工标记结果差异明
显小于上述两种算法。
(d1) (d2) (d3)
图 3.17 与人工标记结果对比的差异（四）
Figure3.17 Difference between results of manual marking and that of manual marking（四）
图 3.11(d1)和 3.13(f1)裁剪自图 3.17(d1)对应的原始图像。由于基于图像块的深度卷积

神经网络模型和改进的 SegNet 无法准确识别图中的白色建筑和白色小汽车，导致图 3.17(d1)
和(d2)语义分割结果不甚理想。而论文采用的全卷积神经网络模型虽然能够利用残差模块
和跳跃连接有效传递图像信息，但只能有效识别图中的建筑物，对白色小汽车的识别结果
也存在一定的混淆。如图 3.17(d3)所示，停车场区域，部分小汽车识别效果不甚理想。
(e1) (e2) (e3)
图 3.18 与人工标记结果对比的差异（五）
Figure3.18 Difference between results of manual marking and that of manual marking（五）
图 3.18(e1)-(e3)为图 top_mosaic_09cm_area27 的语义分割结果。从图中不难看出，原

始图像包含大量的小汽车。图 3.18(e1)语义分割结果中几乎没有准确识别出小汽车。而图
31
3.18(e2)语义分割结果虽然能够准确识别大部分小汽车，但小汽车边缘像素的错误率明显较
高。图 3.18(e3)所示全卷积神经网络语义分割结果，大部分小汽车只有边缘位置 0-1 个像素
存在错误，整体分割精度较高。这表明论文采用跳跃连接和全卷积设计能够较好地保留图
像细节信息，进而获得精度较高的语义分割结果。
为了定量地对比三种深度卷积神经网络的语义分割精度，分别计算实验数据中每种类
型目标和总体的分割精度，列于表 3.2。表中所示每类精度为正确分割像素数与对应类型
目标总像素数之比，总体精度为实验数据中所有正确分割的像素数与实验数据总像素数之
比。在计算过程中，并未在图像目标边界建立缓冲区，因此论文计算的精度比对应论文中
声称的精度偏低。从表 3.2 不难看出，三种深度卷积神经网络对地面和建筑物的分类均偏
高，而对小汽车和其他的分类精度均偏低。大体上，地面和建筑物的光谱特征较为单一，
因此三种算法均能够较好地识别这两种类型。地面目标语义分割的主要困难是与部分建筑
物的屋顶混淆，或者受遮档导致部分地面光谱特征较暗。建筑物语义分割的困难与地面类
似，分割结果中多与地面和小汽车混淆，其中与小汽车混淆主要是白色建筑物和白色厢式
货车，因为二者的光谱特征十分接近。树木和低矮植被均为植被，在近红外、红、绿伪彩
色波段合成的图像上均表现为亮红色，因此三种深度卷积神经网络语义分割结果中最易混
淆的就是树木和低矮植被。小汽车由于目标较小，少量像素即可导致其语义分割精度急剧
下降，因此，三种模型对小汽车的分割精度均为 50%-60%左右。实际上，从图 3.18(e3)可
知，论文采用的全卷积神经网络模型对小汽车的语义分割精度非常高，误差基本能够保障
在一个像素内。但是分割精度这种评价方式显得其结果不甚理想。其他地物是只除了上述
5 种地物以外的所有类型地物。由于其他类型地物构成复杂，光谱及纹理结构特征不稳定，
因而三种网络模型均无法有效学习该类型地物特征，故其语义分割精度最高也不超过 20%。
基于图像块的深度卷积神经网络总体分割精度为 76.46%。导致其语义分割精度不高的主要
原因是对图像块进行卷积并输出图像块中心像素标号需假设图像块所有像素共享同一标
号，因此在图像中心像素落在地物目标边缘时，语义分割结果不稳定，导致边缘出现明显
的锯齿现象。改进的 SegNet 采用 Encoder-Decoder 结构，无需全连接层，因而不受目标边
缘锯齿现象的影响，其总体分割精度为 81.81%。论文采用残差模块和跳跃连接，进一步提
高了模型中的信息传递效率，其总体分割精度可达 84.56%。
表 3.2 三种深度卷积神经网络在实验数据上的语义分割精度(%)
Table.3.2 Semantic segmentation accuracy of three kinds of deep convolution neural networks on experimental
datas(%)
算法地面建筑物树木低矮植被小汽车其他总体精度
32
Patch 87.45 85.37 63.53 74.32 53.98 9.91 76.46
SegNet 90.03 88.27 68.99 85.44 59.28 10.02 81.81
本文算法 91.10 88.53 71.91 87.87 62.27 19.13 84.56
3.2.5 定量精度评价
为了进一步分析论文采用的全卷积神经网络对图像特征的学习能力，计算每类目标及
总体的 IoU，F1-score，并将其与精度对比，如表 3.3 所示。从 IoU 可以看出，建筑物的正
确分类和错误分类之间的差异是最小的，主要是建筑物边缘相对规则，有利于深度卷积神
经网络上采样过程的信息重建。地面 IoU 仅次于建筑物，这受益于地面具有较大的面积，
即便存在一定程度的误差现象，仍旧能够获得较高的精度。虽然树木和低矮植被混淆较为
严重，但低矮植被的 IoU 明显高于树木的 IoU。小汽车和其他地物类型的 IoU 偏低，其原
因与其精度偏低一致。F1-score 通过精确率和召回率计算，建筑物、树木、小汽车和其他
类型地物的 F1-score 均高于对应类别的精度，而地面和低矮植被的 F1-score 值低于对应精
度。其原因主要是地面和低矮植被的召回率偏低。由于这两种地物类型在训练数据占比相
对较大，因此总体数据的 F1-score 和精度较为接近。与 F1-score 和精度相比，IoU 的值明
显偏低，这主要是由他们不同的计算方法导致的，IoU 利用语义分割结果中正确分割区域
与对应人工标记结果对应区域的交集和并集之间的比值，更侧重于评价正确分割与所有可
能错误分割之间的关系，对错误分割的定义更加严格，因此总体会低于 F1-score 和精度。
表 3.3 全卷积神经网络对应语义分割结果的 IoU、F1-score 和精度(%)
Table.3.3 IoU、F1-score and precision of semantic segmentation results corresponding to full convolution
neural network(%)
算法地面建筑物树木低矮植被小汽车其他总体
IoU 77.46 82.32 60.63 73.65 53.45 19.06 73.40
F1-score 87.30 90.34 74.49 84.83 69.66 32.02 84.25
精度 91.10 88.53 71.91 87.87 62.27 19.13 84.56
为了实验数据之间占比情况，将图像各类别目标像素所占百分比和三种模型对应语义
分割精度展示于图 3.19。对比测试和训练数据为不同类型地物占比，两个数据集中地物占
比较为接近。这表明数据集分布特征较为稳定，基于训练样本获取的网络模型参数能够较
好地应用于测试样本。以训练样本为例，不同类型地物目标占总体数据集的比例分别为：
33
地面(27.94%)、建筑物(26.15%)、低矮植被(23.19%)、树木(20.84%)、小汽车(1.21%)、其他
(0.67%)。论文采用全卷积神经网络模型语义分割精度由高到低排序为：地面(91.10%)、建
筑物(88.53%)、低矮植被(87.87%)、树木(71.91%)、小汽车(62.27%)、其他(19.13%)。深度
卷积神经网络语义分割结果与对应目标的占比呈现较强的正相关性。这表明训练样本中目
标像素占训练样本比重越大，越容易学习本质特征。当训练样本中，目标占比太小，无法
提供足够特征时，难以有效学习对应目标特征，因而难以获得较高精度的语义分割结果。
图 3.19 语义分割精度与目标像素占比的相关性
Figure 3.19 correlation between semantic segmentation accuracy and target pixel proportion
3.3 本章小结
本章通过残差模块和跳跃连接构建了全卷积神经网络模型，与传统基于图像块的卷积
神经网络模型和改进的 SegNet 模型相比，论文采用全卷积神经网络模型能够同时学习目标
的局部细节特征和全局特征，同时跳跃连接的使用有效提高了论文全卷积神经网络模型的
细节信息的传递能力。因此，在 ISPRS Vaihingen 数据集上测试上述三种算法，论文采用
的卷积神经网络模型获得了三种算法中最优的语义分割结果。
34
4 基于全卷积神经网络模型的语义分割算法
虽然目前基于 CNN 的方法在语义标注方面取得了重大突破，但是对于城市地区高分
辨率图像的标注仍然存在一定的困难。为了提高高分辨率图像的语义分割精度，提出基于
多尺度的空洞卷积语义分割网络。该网络一方面利用空洞卷积增大图像感受野，保留图像
细节信息；另一方面利用多尺度池化使网络适应不同尺度大小的目标特征，进而实现同时
学习目标的局部细节特征和全局特征，提高算法语义分割精度。
4.1 多尺度空洞卷积神经网络模型
4.1.1 网络模型整体结构
为了充分利用深度卷积神经网络不同模块的特征，提出一种基于空洞卷积的多尺度神
经网络模型(Multi-scale Hole Convolutional Neural Network Model, MHCNNM)，实现图像端
到端的训练及预测。为了充分利用第三章所示全卷积神经网络模型的特征提取能力，以其
模型主体为基础，设计带有四个不同尺度的多尺度空洞卷积模块提取图像不同尺度图像特
征。其网络结构如图 4.1 所示，首先利用第三章所示全卷积神经网络模型最大池化层之前
的所有残差模块提取图像高层抽象特征，但由于该模型只能将图像下采样到原始尺寸的
1/8，对于大尺寸目标的全局特征学习效果不理想。为了克服这一困难，论文采用空洞卷积
在不降低图像尺寸的前提下扩大感受野，提出多尺度空洞卷积模型。每个空洞卷积层采取
不同尺度大小的空洞卷积，相当于在不对图像下采样的情况下学习图像不同尺度特征。最
后将四个不同尺度的空洞卷积结果级联，并利用分类层将级联结果分类到不同类别中。由
于多尺度空洞卷积模型具有第三章全卷积模型的所具备的较强的特征提取能力，并在此基
础上进一步提取图像多尺度特征，因此该模型不但能够学习目标的全局特征，同时不采用
额外下采样层能够较好地保持图像细节特征。
图 4.1 多尺度空洞卷积神经网络模型
Figure4.1 Multiscale void convolution neural network model
35
论文首先采用 ResNet50 从低层到高层逐渐提取图像特征。为了更加有效地提取图像中

不同尺度的目标特征且尽可能保持目标细节信息不丢失，论文设计空洞卷积层，在不改变
图像分辨率的前提下，提高感受野，同时使特征提取结果能够适应不同尺度的图像目标。
空洞卷积原理如图 4.2 所示，卷积时，将卷积核尺度扩大，但不改变卷积核中有效值的数
目。如图 4.2 所示，同样是 33 卷积核，普通卷积核的参数量为 9，空洞卷积核的参数量
也为 9，但空洞卷积的感受野明显增大。因此，采用空洞卷积能够在不增加参数量的情况
下增大感受野，同时保留图像细节信息。
图 4.2 空洞卷积
Figure4.2 Void convolution
图 4.3 为多尺度空洞卷积过程，为了适应图像中具有不同尺度的地物目标，采用不同
尺度的空洞卷积获得多尺度感受野卷积层。多尺度空洞卷积神经网络模型的空洞卷积步长
分为 6，12，24 以适应不同尺度地物目标。其中，步长较少的空洞卷积能够学习较小目标
的全局特征，而步长较大的空洞卷积感受野更大，能提取较大目标的全局特征。采用空洞
卷积能够极大程度地增加感受野、保留图像细节信息，进而在准确识别地物目标的同时更
好地拟合目标边界。最后在每个卷积层后增加 BatchNorm 层，将输出数据归一化为标准正
态分布。
图 4.3 多尺度空洞卷积过程
Figure 4.3 Multi-scale hole convolution process
36
分类层利用卷积操作多种图像特征转换为 n 层，其中 n 为最终分类数。这 n 层特征实

际上表示每个像素隶属于每个类别的概率，利用 softmax 操作，即可将像素划分到概率最
大的类别中。因此，将多尺度特征提取结果连接起来输入最终的分类层即可获取最终结果。
4.2 实验结果分析
采用 ISPRS Vaihingen 数据集，网络模型参数与第三章介绍的一致，初始学习率设置

为 10-5，在 4 个 Titan XP 上训练，batch size 设置为 8。选取空洞卷积和全卷积神经网络模
型存在明显差异的几幅图像，图中(a1)-(f1)为数据中的局部原始图像，(a2)-(f2)为第三章介
绍的全卷积神经网络语义分割结果，(a3)-(f3)为多尺度空洞卷积神经网络语义分割结果，
(a4)-(f4)为原始图像对应人工标记结果。
(a1) (a2) (a3) (a4)
图 4.4 局部原始图像及其分类结果（一）
Figure 4.4 Local original image and its classification results（一）
图 4.4(a1)即为图 4.11(d1)所示场景，基于图像块的深度卷积神经网络模型和改进的
SegNet 模型均无法有效识别图中白色建筑，在图 4.4(a2)可看出论文采用的全卷积神经网络
识别结果中存在部分错误识别的区域。在 ResNet50 的基础上增加多尺度空洞卷积层能够有
效提高网络对细节信息的学习能力，因此图 4.4(a3)所示语义分割结果不但能够准确识别建
筑物，其边缘也相对笔直。此外，在图 4.4(a3)-(a4)可看出增加多尺度空洞卷积不但能够有
效提高建筑物的识别结果，还在一定程度上提高了其他类型目标的识别结果。
(b1) (b2) (b3) (b4)
图 4.5 局部原始图像及其分类结果（二）
Figure 4.5 Local original image and its classification results（二）

37
图 4.5(b1)主体为具有不同光谱及纹理结构特征的建筑物，虽然上节介绍的全卷积神经
网络模型能够识别建筑物主体，但受阴影遮档、光谱特征差异等影响，全卷积神经网络模
型无法识别部分建筑物及细节信息，黄色建筑物附近的小建筑物未能准确识别，且阴影遮
挡区域被划分为地面。结合多尺度空洞卷积的神经网络模型则能够较好地识别图中的所有
建筑物，其识别结果于图 4.5(b4)所示人工标记结果较为接近。此外，图 4.5(b1)下方有块小
面积建筑，图 4.5(b4)所示人工标记结果并未准确标记该区域，而论文采用的全卷积神经网
络和多尺度空洞卷积的神经网络均能识别部分建筑，图 4.5(b3)的识别结果较图 4.5(b2)略
优。
(c1) (c2) (c3) (c4)
图 4.6 局部原始图像及其分类结果（三）
Figure 4.6 Local original image and its classification results（三）
实验数据中存在少量稀疏的低矮植被，如图 4.6(c1)所示，该类型植被受限于其生长状
态，既有地面的特征又有植被的特征，且二者特征均不显著。因此，上节所示全卷积神经
网络模型将部分具备该种特征的植被分类为建筑物。本章通过多尺度空洞卷积模块在保障
网络模型感受野的同时尽可能提高网络模型对图像细节信息以及不同尺度目标特征的学
习能力。因此，如图 4.6(c3)所示语义分割结果于图 4.6(c4)所示人工标记结果基本一致。
(d1) (d2) (d3) (d4)
图 4.7 局部原始图像及其分类结果（四）
Figure 4.7 Local original image and its classification results（四）
图 4.7(d1)即为图 3.13(f1)，基于全卷积神经网络模型的语义分割结果将部分白色厢式
货车划分为建筑物，结合多尺度空洞卷积后，网络模型的特征学习能力明显提高，但如图
38
4.7(d3)所示，增加多尺度空洞卷积后仍旧无法准确分类全部小汽车。其主要原因是图中白
色小汽车于图 4.4(a1)所示白色建筑物的光谱及纹理结构特征过于相似，增加多尺度空洞卷
积只能在一定程度上提高二者的分辨能力，但无法解决这种特征相似地物的语义分割问
题。
(e1) (e2) (e3) (e4)
图 4.8 局部原始图像及其分类结果（五）
Figure 4.8 Local original image and its classification results（五）
图 4.8(e1)同样包含部分停车场区域，该停车场内的小汽车有黑色、红色、银色、黄色、
白色等不同颜色。这导致小汽车这类地物的光谱特征具有较强的不一致性。因此图 4.8(e2)
语义分割结果中黄色小汽车部分被划分为建筑物。增加了多尺度空洞卷积模块后，网络模
型对小汽车的识别能力显著提升，但在图 4.8(e3)仍旧可看出有小部分区域被分割为建筑
物。
(f1) (f2) (f3) (f4)
图 4.9 局部原始图像及其分类结果（六）
Figure 4.9 Local original image and its classification results（六）
图 4.9(f1)为一小块被树木和低矮植被包围的泳池，图 4.9(f4)所示人工标记结果中并未
有效识别该泳池，而是将其划分为低矮植被。但由于泳池的光谱即纹理结构特征与低矮植
被具有明显差异，而与地面的光谱特征较为相似。因此全卷积神经网络模型将其划分为地
面。引入多尺度空洞卷积后，网络模型对图像细节信息以及像素占比不占优势的目标学习
能力提升较为明显，因此能够较为正确地将该泳池分割为其他。但受树木遮档的区域被划
分为地面，泳池边缘部分被划分为建筑物。
39
为了进一步对比全卷积神经网络模型和多尺度空洞卷积模型的语义分割精度，将两者
语义分割结果与人工标记结果对比。图中(a1)-(e1)为全卷积神经网络模型与人工标记结果
的差异，(a2)-(e2)为多尺度空洞卷积模型与人工标记结果的差异。
(a1) (a2)
图 4.10 与人工标记结果对比的差异（一）
Figure4.10 Difference between results of manual marking and that of manual marking（一）
图 4.10(a1)-(a2)为 top_mosaic_ 09cm_area14 的语义分割结果，主要包含地面、建筑物、

树木和低矮植四种类型目标。全卷积神经网络语义分割结果中建筑物边缘、树木和植被边
缘区域混淆现象较为严重。而引入多尺度空洞卷积后，图 4.10(a2)中该种现象被明显削弱。
(b1) (b2)
图 4.11 与人工标记结果对比的差异（二）
Figure4.11 Difference between results of manual marking and that of manual marking（二）
图 4.11(b1)-(b2)对应原始图像 top_mosaic_09cm_area16，图中树木和低矮植被的混淆现
象比较严重，但从图中可以看出，全卷积神经网络模型对建筑物边缘的识别误差在 1-2 个
像素内，而结合多尺度空洞卷积神经网络模型对建筑物的识别误差大多小于一个像素。此
外，图 4.11(b2)中树木和低矮植被的混淆现象也比图 4.11(b1)中更轻。两种算法均错误地将
40
图像右上角区域的低矮植被分割错误，引起该种错误分割的原因与图 4.11(c1)分割结果存
在误差的原因基本一致，生长不够茂盛的低矮植被呈现出与地面和植被混杂的光谱特征。
(c1) (c2)
图 4.12 与人工标记结果对比的差异（三）
Figure4.12 Difference between results of manual marking and that of manual marking（三）
图 4.12(c1)-(c2)所示区域包含较多的小汽车，全卷积神经网络语义分割结果中的小汽
车只有边缘 2 个像素内存在误差现象，而多尺度空洞卷积模型的误差现象更少。此外，多
尺度空洞卷积还有效降低了图 4.12(c1)所示的建筑物和地面的混淆以及树木和植被的混
淆。
(d1) (d2)
图 4.13 与人工标记结果对比的差异（四）
Figure4.13 Difference between results of manual marking and that of manual marking（四）
图 4.13(d1)-(d2)为 top_mosaic_09cm_area29 的语义分割结果，原始图像中包含较为散

乱的其他类型地物。由于其他类型地物占比较少且光谱及纹理结构特征较为复杂，其语义
分割结果通常较差。对比图 4.13(d1)-(d2)可知，多尺度空洞卷积能够有效提高其他类型地
物目标的特征学习能力，以及图像细节信息的特征学习能力，因此能够获得更优的语义分
割结果。
41
(e1) (e2)
图 4.14 与人工标记结果对比的差异（五）
Figure4.14Difference between results of manual marking and that of manual marking（五）
图 4.14(e1)-(e2)为 top_mosaic_09cm_area35 对应语义分割结果。该图像主要是城镇场

景，包含大量的建筑物，建筑物周边被树木和低矮植被环绕。由于大部分树木和低矮植被
随机、混杂地分布在建筑物周围，导致其语义分割结果中混淆现象较为严重。多尺度空洞
卷积神经网络能够有效提高图像中细小特征的学习能力，因而具备更强的目标识别能力。
图 4.14(e2)所示语义分割结果中的误差像素低于图 4.14(e1)所示语义分割结果。
为了定量评价多尺度空洞卷积语义分割结果，分别计算每类目标和总体数据的 IoU、
F1-socre 和精度并与全卷积神经网络对应结果对比分析（如表 4.1 所示）。不难看出，多
尺度空洞卷积算法的 IoU 值均明显高于全卷积神经网络模型，尤其是小汽车和其他两种地
物目标，小汽车的 IoU 指数增加了 12.54%，其他的 IoU 指数增加了 6.57%。这表明采用多
尺度空洞卷积模型能够有效增强图像细节信息的学习能力，同时能够从少量训练样本中学
习小汽车、其他这种像素占训练样本较少的地物目标的特征。因而其总体 IoU 精度提升约
3.20%。与 IoU 的对比结果类似，多尺度空洞卷积模型的 F1-score 也均优于全卷积神经网
络模型，但在该评价指标下，小汽车的 F1-score 增长了约 9.85%，而其他的 F1-score 增长
了约 11.28%。这表明上述两种不同评价指标所侧重的评价方向有所区别。基于多尺度空洞
卷积模型的语义分割结果总体 F1-score 较基于全卷积模型的语义分割结果高约 2.2.%。与
IoU 和 F1-score 不同，两种网络模型精度对比的指标各有高低，全卷积网络模型语义分割
结果中地面和低矮植被的分割精度略高于多尺度空洞卷积神经网络模型。多尺度空洞卷积
神经网络模型对小汽车和其他两种类型的分割精度较全卷积网络模型分别高约 12.03%和
9.06%，总体精度高约 2.03%。
42
表 4.1 全卷积和多尺度空洞卷积神经网络语义分割结果定量评价(%)
Table.4.1 Quantitative evaluation of semantic segmentation results of full convolution and multi-scale hollow
convolution neural network(%)
低矮
评价指标算法地面建筑物树木小汽车其他总体
植被
FCNM 77.46 82.32 60.63 73.65 53.45 19.06 73.40

IoU
MHCNNM 79.51 85.90 65.64 75.37 65.99 27.63 76.60
FCNM 87.30 90.34 74.49 84.83 69.66 32.02 84.25

F1-score
MHCNNM 88.58 92.41 79.25 85.96 79.51 43.30 86.45
FCNM 91.10 88.53 71.91 87.87 62.27 19.13 84.56

精度
MHCNNM 90.64 90.72 78.48 87.59 74.30 28.19 86.59
图 4.15 为训练数据集中各类占比全卷积和多尺度空洞卷积分类精度。训练数据集中各
类目标占比大小顺序为：地面、建筑物、低矮植被、树木、小汽车和其他。全卷积神经网
络模型分类精度顺序与地物目标占比顺序一致，而多尺度空洞卷积的分类精度顺序为：建
筑物、地面、低矮植被、树木、小汽车和其他。这表明多尺度空洞卷积神经网络更容易学
习到建筑物的规则边缘结构。而空洞卷积模板中整体有效权值构成规则的正方形，建筑物
边缘较为清晰且内部光谱特征变化不明显，当卷积模板覆盖建筑物时，能够学习到建筑物
的内部光谱特征和纹理结构特征，这些特征与其他物种地物目标的区别较为明显。因此多
尺度空洞卷积神经网络模型能够较好地保留建筑物等目标的边缘细节特征，进而得到较好
的语义分割结果。全卷积神经网络模型和多尺度空洞卷积模型对地面、建筑物、低矮植被
这种在数据集中占据像素比例较大的目标而言分类精度接近。多尺度空洞卷积模型对图像
特征学习能力的提升主要体现在树木、小汽车和其他类型上。树木是典型的类内光谱特征
差异显著的目标，且通常与低矮植被邻近，容易混淆。而小汽车和其他光谱特征较为复杂，
且在实验数据中像素占比较少，因而较难提取其特征。采用多尺度空洞卷积对这三种类型
目标的语义分割精度提升效果明显，该模型能够有效学习复杂、稀少目标的典型特征。
43
图 4.15 训练数据集中各类占比集全卷积和多尺度空洞卷积分类精度
Figure4.15 Classification accuracy of full convolution and multi-scale cavity convolution of various proportion
sets in training data set
4.3 本章小结
本章在第三章全卷积神经网络模型的基础上，设计了多尺度的空洞卷积模块，该模块
利用空洞卷积在不缩小图像尺度的情况下增加图像感受野，进而能够部分取代池化层，有
效保留图像细节信息。同时，为了解决图像中同时存在占地面积大的建筑物、树木等目标
和占地面积较小的小汽车等目标造成的卷积神经网络难以同时保留小目标细节信息和大
尺度全局信息的问题，利用空洞卷积将提取图像不同尺度信息。当空洞卷积孔洞较大时，
能够提取目标的全局特征；当空洞卷积孔洞较小时，能够提取目标的局部特征。将图像不
同尺度特征连接起来即可有效实现图像多尺度特征的提取。与第三章介绍的全卷积神经网
络相比，多尺度空洞卷积神经网络能够获得更好的语义分割结果。而这差异主要体现在目
标的细节信息上。
44
5 结论与展望
5.1 结论
论文设计了一个基于残差网络和跳跃连接的全卷积语义分割模型，该模型能够提高图
像信息传递能力，进而有效提取图像特征。与现有模型相比，其语义分割总体精度可提升
3%-8%左右。在此基础上，论文设计多尺度空洞卷积模型，进一步学习图像全局及局部细
节特征。与上述全卷积神经网络模型相比，其总体分割精度提升约 2%，IoU 提升可达 3.2%。
论文主要贡献如下：
(1)针对基于图像块的深度卷积神经网络模型以图像块内所有像素共享一个标号导致
的网络语义分割结果边缘存在马赛克现象的问题，论文利用残差模块和跳跃连接提高网络
模型的特征传递效率，构建全卷积神经网络模型。该模型能够有效传递图像细节信息，保
持图像像素间的位置及光谱特征相关性，实验结果表明，该全卷积神经网络模型对目标的
识别能力及目标边缘像素的分割能力均显著提升，对 ISPRS Vaihingen 的语义分割结果精
度提升明显。
(2)本文在上述全卷积神经网络模型的基础上，进一步利用空洞卷积提高图像特征的传
递效率，同时以空洞卷积为基础，设计多尺度模型，提取图像不同尺度上的目标特征，进
一步提高网络模型对局部细节及全局特征的学习能力。与全卷积神经网络模型相比，本文
提出的多尺度空洞卷积神经网络模型对图像细节信息的学习能力明显提升。此外，多尺度
空洞卷积还能有效提高网络对训练样本中像素占比较少的目标特征的学习能力。在 ISPRS
Vaihingen 实验数据上，光谱特征较为复杂的小汽车和其他类型地物目标的语义分割精度均
得到了较为明显的提升。
5.2 未来展望
本文采用全卷积神经网络和多尺度空洞卷积模型，有效提高了网络模型对图像特征，
尤其是图像细节特征的学习能力，但仍旧存在部分地物目标由于训练样本中特征较少或特
征较为复杂等原因导致的语义分割精度不理想的问题。因此，在未来的工作中，将进一步
研究针对图像细节信息的网络模型。此外，随着图卷积神经网络模型的发展，在未来的研
究中，将尝试将图像表达成图模型，利用图卷积神经网络的抽象能力，进一步提高语义分
割模型的特征学习能力。
45
参考文献
[1]Wang X, Ma H, You S. Deep clustering for weakly-supervised semantic segmentation in autonomous
driving scenes[J]. Neurocomputing, 2020, 381(C): 20-28.
[2]Marco T, Umberto M, Gianluca A. Unsupervised domain adaptation for mobile semantic segmentation
based on cycle consistency and feature alignment[J]. Image and Vision Computing, 2020, 95.
[3]Zhang Y, Ye M, Gan Y.Knowledge based domain adaptation for semantic segmentation[J]. Knowledge
-Based Systems, 2020: 193.
[4]龙建武.图像阈值分割关键技术研究[D].吉林大学,2014:106.
[5]马文萍 ,黄媛媛 ,李豪等 .基于粗糙集与差分免疫模糊聚类算法的图像分割 [J]. 软件学报 ,2014,25
(11):2675-2689.
[6]周莉莉,姜枫.图像分割方法综述研究[J].计算机应用研究,2017,34(07):1921-1928.
[7]张祥甫,刘健,石章松等.基于深度学习的语义分割问题研究综述[J].激光与光电子学进展,2019,(15):
20-34.
[8]朱泽敏,张东波,张莹等.基于语义分割的槟榔内核轮廓检测[J].计算技术与自动化,2019,38(04):105-112.
[9]侯红英,高甜,李桃.图像分割方法综述[J].电脑知识与技术,2019,15(05):176-177.
[10]陈昊天,郑阳,张钰桐等.基于物体间支撑语义关系的室内场景彩色深度图像分割[J].控制理论与应
用,2019,36(04):579-588.
[11]黄坚,刘桂雄.面向机器视觉检测的 CNN 语义分割方法进展[J].激光杂志,2019,40(05):10-16.
[12]Wang Y, Chen Q, Chen S. Multi-scale convolutional features network for semantic segmentation in indoor
scenes[J], Journal of Engineering, 2020, 8: 89575-89583.
[13]Zou N, Xiang Z. Boundary-aware CNN for semantic segmentation[J], IEEE Access, 2019, 7: 114520-
114528.
[14]Lin D, Zhang R, Ji Y.SCN:switchable context network for semantic segmentation of RGB-D images [J],
IEEE Transactions on Cybernetics, 2020, 50(3): 1120-1131.
[15]闫凯.基于深度学习的 3DMRI 脑肿瘤分割算法研究[D].中国科学院大学(中国科学院深圳先进技术研
究院),2020,62.
[16]Sharma A, Liu X, Yang X. A patch-based convolutional neural network for remote sensing image
classification[J], Neural Networks, 2017, 95: 19-28.
[17]Kussul N, Lavreniuk M, Skakun S. Deep learning classification of land cover and crop types using remote
sensing data[J], IEEE Geoscience and Remote Sensing Letters, 2017, 14(5): 778-782.
[18]Borne L, Riviere D, Mancip M.Automatic labeling of cortical sulci using pathc-or CNN-based
segmentation techniques combined with bottom-up geometric constraints[J], Medical Image Analysis, 2020,
46
62: 101651.
[19]Savelli B, Bria A, Molinara M, et al. A multi-context CNN ensemble for small lesion detection[J],
Artificial Intelligence in Medicine, 2020, 103: 101749.
[20]Tian C, Xu Y, Li Z, et al. Attention-guided CNN for image denoising[J], Neural Networks, 2020, 124: 117
-129.
[21]Li Y, Wu J, Wu Q, et al. Classification of breast cancer histology images using multi-size and
discriminative patches based on deep learning[J], IEEE Access, 2019, 7: 21400-21408.
[22]Zhang M, Li W, Du Q, et al. Feature extraction for classification of hyperspectral and LiDARdata using
patch-to-patch CNN[J], IEEE Transactions on Cybernetics, 2020, 50(1): 100-111.
[23]Shu L, Mclsaac K, Osinski G R, et al. Hyperspectral image classification with stacking spectral patches
and convolutional neural networks[J], IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(10):
5875 -5984.
[24]Zhang Q, Yuan Q, Li J, et al. Thick cloud and cloud shadow removal in mutitemporal imagery using
progressively spatio-temporal patch group deep learning[J], ISPRS Journal of Photogrammetry and Remote
Sensing, 2020, 162: 148-160.
[25]Naceur M B, Akil M, Saouli R, et al. Fully automatic brain tumor segmentation with deep learning-based
selective attention using overlapping patches and multi-class weighted cross-entropy[J], Medical Image
Analysis, 2020, 63: 101692.
[26]Zhang B, Xiao W, Xiao X, et al. Ransomware classification using patch-based CNN and self-attention
network on embedded N-grams of opcodes[J], Future Generation Computer Systems, 2020, 110: 708-720.
[27]Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[J]. Computer
Vision and Pattern Recognition, 2015.
[28]Chen L, Papandreou G, Kokkinos I, et al. DeepLab: Semantic Image Segmentation with Deep
Convolutional Nets, Atrous Convolution and Fully Connected CRFs[J]. IEEE Transactions on Pattern Analysis
and Machine Intelligence, 2018, Vol. 40(4): 834-848.
[29]Zheng S, J ayasumana S, Romera-paredes B, et al. Conditional random fields as recurrent neural networks
[J]. Multimedia Tools and Applications, 2019: 1-11.
[30]Badrinarayanan V, Kendall A, Cipolla R. A Deep Convolutional Encoder Architecture for Image
Segmentation[J]. IEEE Transactions On Pattern Analysis And Machine Intelligence, 2017, Vol. 39(12):
2481-2495.
[31]Noh H, Hong S, Han B. Learning deconvolutional network for semantic segmentation[C]//IEEE
Conference on Computer Vision & Pattern Recognition, 2015.
[32]Chen L, Papandreou G, Kokkinos I, et al. DeepLab: Semantic Image Segmentation with Deep
47
Convolutional Nets, Atrous Convolution, and Fully ConnectedCRFs[J]. IEEE Transactions on Pattern Analysis
and Machine Intelligence, 2018, Vol. 40(4): 834-848.
[33]Lin G, Milan A, Shen C, et al. RefineNet:multi-path refinement networks for high-resolution semantic
segmentation[J]. arXiv, 2016.
[34]Nico H, Hannes S, Sven B. Fast Semantic Segmentation of RGB-D Scenes with GPU-Accelerated Deep
Neural Networks[J]. KI 2014: Advances in Artificial Intelligence, 2014, Vol. 8736: 80-85.
[35]Hong S, Oh J, Han B, et al. Learning Transferrable Knowledge for Semantic Segmentation with Deep
Convolutional Neural Network[J]. Computer Science, 2015: 4795-4803.
[36]Wang J, MacKenzie J D, Ramachandran R, et al. A Deep Learning Approach for Semantic Segmentation
in Histology Tissue Images[J]. Medical Image Computing and Computer-Assisted Intervention–MICCAI 2016,
Vol. 9901: 176-184.
[37]Gao K, Sun S, Yao G, et al. Semantic segmentation of night vision images for unmanned vehicles based on
deep learning[J]. Journal of Applied Optics, 2017, Vol. 38(3): 421-428.
[38]Sander G, van Dijk, Marcus M S. Deep Learning for Semantic Segmentation on Minimal Hardware[J].
Statistics, 2018: 19-28.
[39] Liu C, Zhang Y, Chen P, et al. Clouds Classification from Sentinel-2 Imagery with Deep Residual
Learning and Semantic Image Segmentation[J]. Remote Sensing, 2019, Vol. 11(2): 119.
[40]代具亭,汤心溢,刘鹏等.基于彩色-深度图像和深度学习的场景语义分割网络[J].科学技术与工程,2018,
第 18 卷(20): 286-291.
[41]张宏鸣,王斌,韩文霆等.基于全卷积神经网络的灌区无人机正射影像渠系提取[J].农业机械学报,2019,
第 50 卷(6): 241-248.
[42]罗会兰,张云.基于深度网络的图像语义分割综述[J].电子学报,2019,(10).
[43]Cohen A, Rivlin E, Shimshoni I, et al. Memory based active contour algorithm using pixel-level classified
images for colon crypt segmentation[J]. Computerized Medical Imaging Graphics the Official Journal of the
Computerized Medical Imaging Society, 2015, 43: 150-164.
[44]Felzenszwalb P F, Girshick R B, Mcallester D A, et al. Object detection with discriminatively trained
part-based models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9):
1627-1645.
[45]Krizhevsky A, Sutskever I, Hinton G. ImageNet Classification with Deep Convolutional Neural
Networks[C]//NIPS. Curran Associates Inc. 2012: 1-27.
[46]Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J].
Computer Science, 2014: 190-203.
[47]Szegedy C, Liu W, Jia Y, et al. Going Deeper with Convolutions[J], IEEE Conference on Computer Vision
48
& Pattern Recognition, 2014: 779-788.
[48]Szegedy C, Wanhoucke V, Loffe S, et al. Rethinking the inception architecture for computer vision[J].
IEEE Computer Society, 2015: 1323-1330.
[49]He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[C]//IEEE Conference on
Computer Vision & Pattern Recognition. IEEE Computer Society, 2016: 1561-1575.
[50]Kang B, Nguyen T Q. Random Forest with Learned Representations for Semantic Segmentation[J]. IEEE
Transactions on Image Processing, 2019, Vol. 28(7): 3542-3555.
49
作者简历
一、基本情况
姓名：姜思瑶性别：女民族：蒙出生年月：1993.08 籍贯：辽宁阜新
学习经历：
2012.09—2015.07 鞍山师范学院机械电子系计算机应用技术
2015.09—2017.07 辽宁工程技术大学软件学院软件工程专业工学学士
2017.09—2020.07 辽宁工程技术大学研究生院软件工程专业工程硕士
二、在学期间发表的学术论文
(1)曲长波，姜思瑶，吴德阳.空洞卷积的多尺度语义分割网络.计算机工程与应
用.2019,24:1002-8331.
(2)曲长波，吴德阳，肖成龙，郭鹏飞，姜思瑶.RGB 空间彩色零水印算法.计算机科学
与探索.2019,04:1673-9418.
50
学位论文原创性声明
本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的
研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包
含其他人已经发表或撰写过的研究成果。其他同志对本研究所做的任何贡献
均已在论文中作了明确的说明并表示了谢意。
本人学位论文与资料若有不实，愿意承担一切的法律责任。
学位论文作者签名：_________
2020 年 8 月 12 日
51
学位论文数据集
关键词* 密级* 中图分类号* UDC 论文资助
语义分割；全卷积
神经网络；空洞卷公开 TP311.5 004
积；残差模块
学位授予单位名称* 学位授予单位代码* 学位类别* 学位级别*
辽宁工程技术大学 10147 工程硕士硕士
论文题名* 并列题名* 论文语种*
Semantic Segmentation Algorithm

基于全卷积神经网络模型的语义分割算法 Based on Fully Convolutional Neural 中文
Network Model
作者姓名* 姜思瑶学号* 471720861
培养单位名称* 培养单位代码* 培养单位地址邮编
辽宁工程技术大学 10147 辽宁省葫芦岛市 125105
工程领域* 研究方向* 学制* 学位授予年*
软件工程图形图像处理 2年 2020
论文提交日期* 2020 年 7 月
导师姓名* 曲长波职称* 高级工程师
评阅人答辩委员会主席* 答辩委员会成员
沈学利
电子版论文提交格式文本（）图像（）视频（）音频（）多媒体（）其他（）
推荐格式：application/msword; application/pdf
电子版论文出版（发布）者电子版论文出版（发布）地权限声明
论文总页数* 50
注：共 33 项，其中带*为必填数据，共 22 项。
52

基于全卷积神经网络模型的语义分割算法

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

基于全卷积神经网络模型的语义分割算法

Uploaded by

Copyright:

Available Formats

全日制硕士学位论文

本学位论文作者及指导教师完全了解 辽宁工程技术大学 有关保

作者姓名 姜思瑶 学 号 471720861

导师姓名 曲长波（高级工程师） 副导师姓名

申请学位 工程硕士 培养单位 软件学院

学科专业 软件工程 研究方向 图形图像处理

该论文有图 55 幅，表 5 个，参考文献 50 篇。

The paper has 55 pictures, 5 tables, and 50 references.

1.1 Research background and purpose significance........................................................................ 1

2 Related basic theories.................................................................................................................6

2.1 Basic Theory Related to Fully Convolutional Neural Network Model.....................................6

3 Fully convolutional semantic segmentation algorithm based on residual module............. 18

3.1 Fully convolutional neural network model based on residual module.................................... 18

4 Semantic segmentation algorithm based on fully convolutional neural network model... 35

4.1 Multiscale hollow convolutional neural network model......................................................... 35

5 Conclusion and Outlook...........................................................................................................45

卷积神经网络(Convolutional Neural Networks, CNN)是深度学习模型中含有多个卷积

和较常用的 FCN 以及著名的 DeepLab-LargeFOV

Computational Learning) VOC(Visual Object Classes) 2012 语义图像分割任务中设置了新的

Figure2.1 Principle of convolution

Figure 2.2 Principle of pool layer

Figure2.3 ReLU function

AlexNet 自 2012 年 ILSVRC (ImageNet Large Scale Visual Recognition Challenge)大赛中

图 2.4 AlexNet 网络结构模型

Figure 2.4 Structure of AlexNet

VGGNet 是牛津大学和 Google DeepMind 公司共同开发的深度卷积神经网络模型[46]。

图 2.5 VGGNet 网络模型结构

Figure 2.5 Structure of VGGNet

GoogLeNet 发展到现在共有 4 个版本，其中 GoogLeNet Inception V1 的网络模型比

图 2.6 Inception 基本结构

Figure.2.6 Basic structure of perception

然而，最基本的 Inception 结构需要在每一层的输出上做 5×5 的卷积，导致其计算量较

图 2.7 Inception V1 网络结构

Figure.2.7 Network structure of Inception V1

基于 Inception V1 设计的 GoogLeNet 网络结构，该结构中 Inception 模块可增加核修改。

图 2.8 3×3 卷积核叠加

Figure.2.8 Superposition of 3×3 convolution kernels

图 2.9 n×1 卷积核叠加

Figure.2.9 Superposition of n×1 convolution kernels

GoogLeNet Inception V3 的一个最重要的改进是卷积分解，同时进一步加深网络层次，

图 2.10 Inception 与残差模块的结合

Figure.2.10 Combination of inception and residual module

图 2.11 随深度的增加网络在 CIFAR10 上的分类错误率

Figure2.11 Classification error rate of CIFAR10 network with increasing depth

网络衰减可能是由于卷积层叠加的过程中信息丢失导致的。他们提出如图 2.12 所示的

Figure2.12 Residual structure

的图像，而不用向传统 CNN 一样，要求具有同样尺寸的训练图像和测试图像，而是采用

图 2.13 FCN 模型示意图

Figure 2.13 Schematic diagram of FCN model

图 2.14 IoU 示意图

Figure2.14 IoU schematic diagram

Figure3.1 Full convolution network model structure

全卷积网络模型(Fully Convolutional Network Model, FCNM)结构如图 3.1 所示，本文采

令 X = {xi | i = 1, …, n }其中 xi 表示每个像素的 RGB 特征矢量，i 表示像素索引，n 表

其中 Ni 表示像素 i 为中心的卷积核模板范围，论文中全部采用 3×3 卷积核，该集合中

其中 表示乘性参数， 表示加性参数。

(1)ISPRS Vaihingen 数据集

Figure3.2 Experimental data

Table 3.1 training set and verification set

top_mosaic_09cm_area1 top_mosaic_09cm_area23 top_mosaic_09cm_area3

top_mosaic_09cm_area7 top_mosaic_09cm_area26 top_mosaic_09cm_area5

top_mosaic_09cm_area13 top_mosaic_09cm_area28 top_mosaic_09cm_area11

网络模型训练初始学习率设置为 10-5，在 4 个 Titan XP 上训练，batch size 设置为 8。

(a1) (a2) (a3)

本学位论文作者及指导教师完全了解辽宁工程技术大学有关保

作者姓名姜思瑶学号 471720861

导师姓名曲长波（高级工程师）副导师姓名

申请学位工程硕士培养单位软件学院

学科专业软件工程研究方向图形图像处理

算法地面建筑物树木低矮植被小汽车其他总体精度

算法地面建筑物树木低矮植被小汽车其他总体