李晓春毕业论文终稿批注

本科毕业设计（论文）开题报告
题目基于深度学习的带钢表面质量
缺陷检测研究
姓名李晓春
学号 1910221227
所在学院电气与电子工程学院
专业班级 19 自动化 2 班
指导教师宫一平
2023 年 3 月
摘要
热轧带钢是现代钢铁产业中的重要产品，在各行各业中都有较多的应用。
在热轧带钢的生产过程中，带钢表面难免存在缺陷，进而是影响产品的质量的
一个重要因素。传统的缺陷检测方法检测过程较为复杂，且难以满足快速、准
确的缺陷检测要求。为了 xxx, 本文研究并提出了 xx 方法，主要工作如下：
基于深度学习强大的特征提取能力，本文首先提出基于深度学习的热轧带
钢表面缺陷检测方法，系统相比传统的缺陷检测方法检测方法，基于深度学习
的缺陷目标检测方法具有检测准确、检测速度快等优点。，虽然卷积神经网络
算法已经在很多领域的目标检测任务当中都取得了不错的效果，但在复合缺陷
检测、缺陷目标定位等问题上还存在一些不足，因此。本文进一步致力于使用
研究基于多标签分类算法的解决热轧带钢表面复合缺陷的检测问题，从而 xx。
本文基于东北大学（NEU）的开放表面缺陷数据库，并且利用 YOLOv5 模型
进行相关改进：通过添加 CA 注意力机制模块与 C3CBAM 模块。从而，使模型达
到了较好的检测效果，mAP 达到了 92.28%，相对于其他主流目标检测算法模型
当前改进的 YOLOv5 模型达到了最优的检测效果。
关键词：目标检测；带钢表面缺陷，YOLOv5，CA，CBAM
1
Abstract
Hot rolled strip steel is an important product in the modern steel industry and has
many applications in various industries. During the production process of hot-rolled
strip steel, surface defects of the strip steel are an important factor affecting product
quality. The traditional defect detection method has a complex detection process and
is difficult to meet the requirements of fast and accurate defect detection. The surface
defect detection system for hot rolled strip steel based on deep learning has the
advantages of accurate detection and fast detection speed, but there are still some
shortcomings in composite defect detection, defect target localization, and other
issues. This article is dedicated to using multi label classification algorithms to solve
the detection problem of composite defects on the surface of hot rolled strip steel.
Based on the open surface defect database of Northeast University (NEU), and
utilizing the YOLOv5 model for related improvements: adding CA attention
mechanism module and C3CBAM module. As a result, the model achieved good
detection performance, with mAP reaching 92.28%. Compared to other mainstream
object detection algorithm models, the currently improved YOLOv5 model achieved
the best detection performance.
2
目录
题目基于深度学习的带钢表面质量缺陷检测研究....................................................................1
第一章绪论.......................................................................................................................................4
1.1 研究背景及意义.................................................................................................................4
1.2 基于图像的缺陷识别方法国内外研究现状......................................................................5
1.3 主要研究内容......................................................................................................................7
1.4 论文章节安排......................................................................................................................8
1.5 本章小结..............................................................................................................................8
第 2 章深度学习相关基础知识.......................................................................................................9
2.1 深度学习概念及结构.........................................................................................................9
2.2 卷积神经网络基础理论...........................................................................................10
(1)卷积层.................................................................................................................11
(2)池化层.....................................................................................................................12
(3)全连接层..............................................................................................................13
(4)激活函数....................................................................................................................13
2.3 基于深度学习的目标检测网络................................................................................14
2.3.1 单阶段目标检测算法...........................................................................................15
2.3.2 双阶段目标检测算法..............................................................................................19
2.4 本章小结............................................................................................................................22
第 3 章实验与模型.........................................................................................................................22
3.1 实验环境及实验设计........................................................................................................22
3.1.1 实验环境................................................................................................................22
3.1.2 数据集....................................................................................................................23
3.1.3 评估准则................................................................................................................26
3.2 模型改进............................................................................................................................27
3.2.1 传统 YOLO 架构.....................................................................................................27
3.2.2 基于 YOLOv5 改进.................................................................................................28
3.3 本章小结............................................................................................................................32
第 4 章带钢表面缺陷检测实验.....................................................................................................33
4.1 数据预处理.......................................................................................................................33
4.1.1 数据标注.......................................................................................................................33
4.1.2 图像裁剪.......................................................................................................................33
4.1.3 数据增强.......................................................................................................................34
4.2 实验参数...........................................................................................................................34
4.3 实验结果...........................................................................................................................36
模型对比表.......................................................................................................................38
3
4.4 优势与反思.......................................................................................................................38
4.4.1 模型优势........................................................................................................................38
4.4.2 模型不足........................................................................................................................38
4.5 本章小结...........................................................................................................................39
第 5 章结论与讨论.........................................................................................................................40
第一章绪论
1.1 研究背景及意义
带钢是现代钢铁业的重要组成部分，中国带钢生产规模在 2020 年将突破

8500 万吨，其对带钢的需求也将持续增长。但随着生产规模的扩大，对板坯质
量的要求也越来越高。尤其是在热轧带钢的制造过程中，由于原料材质、轧制
工艺和生产环境等方面的原因，带钢的因为这些缺陷的形态各不相同，点状、
线状以及面状缺陷都有可能出现[1]，给带钢表面的缺陷检测带来了极大的挑战。
所以，如何在实际生产中实现带钢板形质量的智能检测就显得尤为重要。
现有的金属带材表面缺陷检测技术，如涡流、漏磁、红外等，均为非破坏
性检测手段，难以满足快速准确的检测需求，且检测流程繁琐，不利于金属带
材的广泛使用。在 CCD 摄像机（CCD）的广泛使用以及多种机器学习算法的不
断发展下，基于图像信息的热轧带钢表面缺陷识别技术已成为目前该领域的一
个研究热点[2]。该方法通常采用机器学习的方法，首先从 CCD 相机采集的图
像中对缺陷对象进行检测，随后由终端人工再次检查后，完成对缺陷的识别，
并将其存入历史数据库。近年来，伴随着深度学习技术的发展，利用不同类型
的卷积神经网络来识别带钢表面缺陷图像已成为一种主流方法。深度学习模型
能够从图像中自动抽取大量特征，从而克服传统的机器学习方法依赖于人工抽
取特征的困难，从而提升模型的检测能力。然而，现有的基于深度学习的缺陷
检测算法主要局限于对一幅图像的分类，无法实现对其他类型缺陷的同时检测。
为了能够对不同类型的缺陷进行有效的识别，有学者提出了一种基于多标记的
4
图像分类方法。然而，与单一标记相比，多标记识别模型的识别准确率较低，
不能满足实际应用的需要。当前，基于 Faster RCNN、 YOLO 等多个目标检测
网络，对图像中的缺陷进行分类和定位。相比于以前的故障检测方法，这个方
法更适合于对多个故障进行检测和定位。然而，目前常用的几种检测方法都存
在着误检、漏检等问题，不能很好地满足生产需要。在此基础上，提出了一种
新的基于靶向探测的带材表面缺陷检测方法。
因此，本文在目标检测的基础上，引入集成思想，联合不同的模型，构建
缺陷检测集成模型，以期提高带钢表面缺陷检测精度。该方法有望为目标检测
提供一种方向和思路。
1.2 基于图像的带钢表面缺陷检测识别方法国内外研究现状
在 20 世纪后期，对带钢表面的检验主要是靠手工进行。该方案采用不同的
照明方式，使得带钢表面的缺陷更加明显，再由人工识别。但是，该方法不但
很难对较小的缺陷进行辨识，而且会造成检测速度慢，检测效果极差；而高频
率的闪光灯，更是会对人的眼睛造成很大的伤害。随着板带材的快速发展，各
类检测仪器在带钢表面质量检测中的广泛应用，传统的手工检测已被多种检测
手段所替代。
70 年代以后，以涡流检测[4]、漏磁检测[5]、红外检测[6]为代表的各种检
测方案开始出现。其中，涡流检测利用的是电磁感应的原理，在带钢经过磁场
的时候，产生磁场的线圈会发生变化，通过检测线圈的电阻、电压是否变化，
就可以知道是否有缺陷。但是这种方法很难实现，而且其影响因素很多，很难
进行准确的测量。漏磁探测能利用带材表面的高磁透率特性，对各种缺陷进行
探测。但也有一个缺点，那就是测试速度较慢，很难在快速发展的板带生产线
上得到推广。红外检测方法是一套以工件瞬态热传导理论为基础的无损检测方
法，经过几年的发展已有多套成熟的技术应用[7]。它的工作原理是：在带材输
送滚筒上安装一种高频感应线圈，使带材在输送滚筒上经过时，产生一种感应
电流，从而实现带材的自动检测。在缺陷区，由于产生的感应电流会通过缺陷
区，增大电流的冲程，使得每一单位面积的用电量都会增大，进而造成铸坯局
5
部温升，进而实现对缺陷的判别。然而，该方法的局限性很大，而且仅能识别
出少量的缺陷。
随着 CCD 摄像机在带钢表面缺陷探测中的广泛应用，机器视觉探测技术
已逐步替代其他探测技术，成为带钢表面缺陷探测的主要手段[8]。采用机器视
觉技术对板带进行无损检测是最早的一次。Honeywell 公司研制出了一套以电荷
耦合器件为核心的连续铸坯表面缺陷自动测试仪[9]。德国 Parsytec 公司研制出
一种 HTS-2 薄板表面缺陷探测系统，该系统使用了一种面阵 CCD 摄像机
[10]。NANO 公司的钢板表面缺陷在线检测系统能够在宽度为 1200 mm，生产
速度为 1.5 m/s 时，识别出缺陷尺寸大于 0.5 mm 的缺陷[11]。这些方案都使用机
器学习的各种算法对 CCD 相机采集到的图像进行特征提取、分类检测。这一解
决思路在带钢表面缺陷检测上表现较好且比较成熟，一直沿用至今。在国内，
从上世纪 90 年代就开始对带钢的表面缺陷进行研究，也有了一些较成熟的检测
方法。华中科技大学使用面阵 CCD 采集图像，成功在实际生产中检测到缺陷
位置[12]，同时也对缺陷阈值分割进行了研究[13]。北京科技大学徐科教授等
利用多个 CCD 相机同步采集钢板表面图像，利用多个客户端和一个服务器构成
的并行机系统，在同一时间内完成了钢板表面局部缺陷的识别。上海宝钢集团
与东北大学联合开发了一套热轧钢板表面缺陷的检测系统，并将该系统用于宝
钢集团的生产车间[15]。中南大学罗旗舞等研究小组在深入挖掘带钢表面缺陷
特征的基础上，开发了选择性局部二进制模式（SDLBP）算法，实现了带钢表
面缺陷的快速检测[16]。同时针对带钢表面缺陷相同类别差异较大，而不同
类别间距离不明确的问题，提出了 Generalized Completed Local Binary
Patterns（GCLBP）算法[17]。
近年来，随着计算机技术的不断进步，采用深度学习方法实现带钢表面缺
陷图像的自动识别已成为一个热门课题。当前，基于卷积神经网络的带材表面
缺陷识别技术广泛应用于带材表面缺陷识别领域，该技术不需要人工干预，能
够获得优于其他机器学习方法的结果。徐科等人在前期工作中提出了一种新的
对象检测方法，即先对缺陷图像进行分类，再利用不同的卷积核对缺陷进行特
征提取，最终实现对缺陷的定位[18]。东北大学宋克臣教授将产生式对抗神经
网络（GAN）应用于板坯表面缺陷检测，在产生大量无标记缺陷图像数据后，
6
对其进行分类，从而有效地解决板坯表面缺陷识别中存在的图像样本匮乏问题。
该方法能够有效地弥补缺损图像的不足，但是该方法的训练过程比较复杂，无
法实现对复杂场景中缺损情况的仿真。同时，该团队还提出了一种 Defect
Detection Network（DDN）[20]网络，通过对 Faster R-CNN 进行改进，提高了
模型的检测精度，完成了端到端的带钢表面缺陷检测。此模型虽然检测精度较
高，但检测速度较慢，难以满足实时检测的需求。
综上所述，目前的方法。本文拟从目标检测入手，开展实验研究，以期解
决更加精准的带钢表面缺陷识别问题。
1.3 主要研究内容
本文围绕带钢表面缺陷自动化检测需求开展研究，针对带钢表面存在的缺
陷问题，拟从目标检测的角度入手，利用深度学习图像处理技术，并结合注意
力机制，构建注意力感知的目标检测网络，实现对带钢表面缺陷的特征提取和
检测识别。鉴于此，本文的主要研究内容包括 xxxx 和 xxxx 两个方面。探讨了
YOLOv5 模型与改进后的 YOLOv5 模型在带钢表面缺陷检测上的表现，并且与
其他主流目标检测模型进行比较，对网络模型进行调参优化，并结合实验进行
分析和讨论。
1.在数据方面，针对 xxx，本文使用数据增强手段进行数据预处理，其中主
要包括了 mosaic 数据增强、随机裁剪、随机拼接等数据增强手段方式对对数据
集进行扩充，丰富了数据集的特征信息。
2. 在特征提取方面，本文首先探讨了关于带钢表面缺陷目标检测的几种主
流目标检测算法。，然后针对现有方法在特征提取上的不足，进一步并且对
YOLOv5 网络模型进行了着重的实验研究，其中为了解决区分背景信息和目标
信息的能力，我们引入了 CA 注意力机制，并且将 Neck 部分的 C3 模块与
CBAM 模块相结合，以提升模型对带钢表面缺陷的特征提取能力，从而实现了
关于带钢表面缺陷目标的高精度检测的高效实现检测。
3. 对网络模型进行实际训练验证，并且探讨改进后的 YOLOv5 网络模型与
其他几种主流目标检测算法的检测效果，研究最终确定的网络模型算法的优势
7
与不足之处。
最后，通过实验对算法有效性进行了验证。在实际训练中，本文选取
YOLOv5 作为基准模型，并详细分析对比了 YOLOv5 模型改进前后的带钢表面
缺陷检测表现，最后将其与其他主流目标检测模型进行比较，以验证本文方法
有效性。
1.4 论文章节安排
第一章为绪论。针对国内外研究现状进行相关对比，分析关于带钢缺陷检
测这一问题的意义，确定当前的研究现状，从而寻找本研究的目的与接下来的
研究趋势。
第二章为 xx。主要介绍了对深度学习相关基础知识进行介绍，讲解卷积神
经网络的基础理论，着重介绍深度学习的目标检测网络算法架构。
第三章为。主要是对本研究所采用的模型原理 YOLOv5 进行相关介绍，并
且着重阐述了本研究对 YOLOv5 模型所做的相关改进点。介绍了本研究的实验
设置，说明了研究所用的数据集。
第四章为 xxxx。主要对本研究的实验部分进行重点阐述，说明了包括数据
预处理过程，实验参数设置，实验数据以及最终的对比了模型目标检测结果，
并且对于模型优势和不足进行了相关探索探进。
第五章为总结与展望。总结了本文研究的过程，从总体探讨了带钢表面缺
陷目标检测的过程，说明了关于 YOLOv5 改进部分对于该题的作用，总结模型轻
量化与高精度是研究带钢表面缺陷目标检测的研究趋势。
1.5 本章小结
本章首先介绍了选取带钢缺陷检测这一题目的意义，然后之后对国内外研
究现状进行了对比并提及部分主流检测网络。本章重点部分对本文主要研究内
容进行具体的介绍，最后说明了本文的章节安排。
8
第2章深度学习相关基础知识
Xxx(关于本章内容的三行概括)
2.1 深度学习概念及结构
深度学习是机器学习的一个子领域，当处理具有高维度、数据量大、结构
复杂等特点的任务时，原来的一些机器学习方法已经无法满足，因此能够从大
量的数据中提取到跟多的信息，就需要构建更深层次的模型。深度学习可以通
过多个抽象层从海量的数据中学习，并可以提取更高级的特征信息，进而提高
模型的准确率。相比较传统机器学习，深度学习的关键优势在于能够自动学习
数据的分层表示，自动从低级特征构建到高级特征，这使得深度学习能够在广
泛的应用中实现最先进的结果，包括图像和语音识别、自然语言处理和自主驾
9
驶。图 2-13 展示了数据在深度学习的处理流程。
图 2-1 深度学习流程图
目前，神经网络是深度学习的主要形式，利用误差反向传播算法可以很好
的解决贡献度分配问题，减少了模型训练的损失，极大地提高了预测的准确率。
深度学习的不断研究，模型深度层次也越来越多，有了更好的特征表达能力，
为模型最后的更好的预测提供了基础。
2.2 卷积神经网络基础理论
近几年随着大数据时代的到来以及计算机硬件的快速发展，深度学习在不
同行业得到了广泛的应用，由此衍生出许多经典且适用的网络模型，如卷积神
经网络（Convolutional Neural Networks ，CNN ），循环神经网络）Recurrent
Neural Networks ， RNN ）（田萱， 2019 ），生成式对抗网络（ Generative
Adversarial Networks，GAN）（Goodfellow，2020）等。其中卷积神经网络在
图像处理方面表现出强大的计算能力，卷积神经网络主要由神经元和结点之间
的连接构成，是一种对网络层元素采用卷积运算的前馈神经网络。CNN 结构常
由卷积层、池化层、全连接层、激活函数和输出层组成（陈伟宏，2017），其
中卷积层用来进行图像特征提取，池化层用于降低模型训练参数和防止过拟合，
全连接层通过将数据从三维降到二维，以方便模型进行分类训练，激活函数和
输出层用来实现网络误差的优化以及图像的分类预测。最具有代表的卷积神经
10
网络模型为 LeNet-5，如图 2-4所示，该网络将图片输入，经过三个卷积层，两
个池化层、两个全连接层和一个激活函数得到学习结果。
图 2-2 LeNet-5 网络结构

(1)卷积层
卷积神经网络中的卷积层，其主要功能是对输入的图像进行卷积运算，通
过卷积核的学习和局部特征提取实现对图像的处理。通常情况下，图像处理中
的卷积操作是二维卷积，其主要由长、宽和深三个参数来确定，其中长和宽决
定了感受野的大小，而深度则与图像的通道数相同。卷积操作会从图像左上角
开始，然后将图像中的像素点值与卷积核中的参数对应相乘后并相加得到卷积
操作结果，这样就完成了第一次卷积操作（金宇，2020）。之后再按照给定的
步长在图像中从左至右进行滑动并进行同样的卷积操作，最后卷积核对图像中
的所有像素点都做完卷积运算，则得到输出张量为 x l+1 ∈ R(H ¿¿l −H +1)×(w ¿¿ l−W+1)× D ¿¿，
卷积运算过程如图 2-5所示。
图 2-3 卷积运算过程
从上图可以发现，假设输入图像为 4 × 4，卷积核大小为3 ×3 ，指定步长为
1，通过卷积运算后，可以得到 2 ×2的特征图。卷积层通过一定大小的卷积核对
输入图像进行卷积运算，从而提取图像的局部特征。卷积核的参数在不同位置
上的作用是不变的，这样可以减少模型的训练参数，提高模型的训练速度。同
11
时，卷积层可以使用不同的卷积核提取不同的特征信息，例如边缘特征、纹理
特征、形状等特征信息。同时为了提取更多更丰富的特征信息，通常采用多个
卷积核来增加特征图的通道数，从而使得模型达到更好的效果。
(2)池化层
为了从原始图像中提取更多的特征信息，一般会采用多个卷积核进行特征
提取，但这样做会导致卷积运算后的特征向量维度较大，同时也会影响训练速
度以及导致模型出现过拟合的现象，为此在两个卷积层之间加一个池化层来解
决这类问题。池化层是一种常用的神经网络层，其主要作用是对输入的数据进
行降采样操作，并提取输入数据的局部显著特征。池化层的降采样操作有助于
压缩输入数据，减少模型参数数量，避免过拟合的情况发生。在卷积神经网络
中，通常将池化层插入到卷积层之间，这样不仅可以在一定程度上保持网络结
构的不变性，同时还可以改善模型的泛化性能。因此，池化层是卷积神经网络
中不可或缺的一部分，池化层使用最多的是最大池化和平均池化，如图 2-6所示。
图 2-4 最大池化和平均池化
最大池化是通过计算特征图上 n × n矩形内的最大值作为特征提取结果，计
算公式如下，其中 x ij表示特征图中的数值。
f ( x )=max ⁡(x ij )
平均池化是通过计算特征图上 n × n矩形内的平均值作为特征提取结果，计
12
算公式如下，其中 x ij表示特征图中的数值。
1
2 ∑ ∑ ij
f ( x )= x
n i j
(3)全连接层
全连接层通常连接在网络结构的末尾，主要作用是将特征映射到样本的标
记空间，完成模型的分类。其本质是将卷积核池化后的高维度特征数据，整合
成具有特定长度的一维特征向量，然后再通过线性变化传递到下一个特征空间，
最后通过由全连接的分类器进行分类任务。
(4)激活函数
在卷积神经网络中，激活函数起到两个作用：一方面它决定了一个神经元
是否被激活，从而控制了神经网络的输出；另一方面它也改善了全连接层与输
出层之间的非线性关系。除此之外，激活函数还有两个重要的特性。首先，它
将数据信息映射到一个固定的范围内，使得数据具有可比性；其次，激活函数
可以避免数据的无限扩张，从而使神经网络的训练过程更加稳定。深度卷积网
络具有不同的激活函数，常见的激活函数有 Sigmoid、Tanh 和 ReLu 等，如表 2-
1 所示。
表 2-1 激活函数
激活函数表达式
1
Sigmoid f ( x )= x
1+e
Tanh {
f ( x )= x ， x ≥ 0
0 ， x <0
x −x
( ) e −e
ReLu f x = x −x
e +e
不同的激活函数会对神经元的激活方式和网络的表现产生不同的影响
Sigmoid 函数可以将输入的实数映射到（0，1）的范围内。如果输入为正无穷，
输出为 1；如果输入为负无穷，则输出为 0。Tanh 函数是一种分段函数，在零
点处具有反转性质。当输入大于零时，输出等于输入；当输入小于零时，输出
为负值。ReLU 函数将实数的范围映射到非负实数上，并以零为中心进行输出
13
响应。Sigmoid 和 Tanh 函数是饱和激活函数，而 ReLU 函数则是非饱和激活函
数。
2.3 基于深度学习的目标检测网络
基于深度学习的目标检测算法主要分为两类：单阶段检测算法和双阶段检
测算法。单阶段检测算法的代表模型有 YOLO 系列、SSD、EfficientDet 等，这
些算法不需要生成候选框，而是将提取的图像特征通过特定的网络结构，直接
对目标的位置和类别进行回归与分类。在单阶段检测算法中，目标定位问题被
转化为回归问题处理，并通过检测模型将回归和分类结果统一分析。图 2-7展示
了单阶段检测算法的流程。而双阶段检测算法的代表模型是 R-CNN 系列，这些
算法需要生成候选框，然后通过 CNN 提取特征，再使用分类器进行目标分类和
定位，如图 2-8所示。总体来说，两种目标检测算法都有各自的优缺点，其中单
阶段检测算法有较快的检测速度，但模型的检测精度不足，相反，双阶段检测
算法因通过对图像感兴趣区域的提取，所以有较高的检测精度，不足之处就是
算法速度比较缓慢。
图 2-7 单阶段检测方法
14
图 2-5 双阶段检测方法
2.3.1 单阶段目标检测算法
1、YOLO
YOLO （ You Only Look Once ）是一种实时目标检测算法
（Redmon，2016），该算法具有快速、高效的特点，能够在计算机硬件上实时
运行，从而一直被延续至今，并逐步被人工智能爱好者不断的进行优化和改进，
目前已经有 YOLOv1、YOLOv2、YOLOv3、YOLOv4、YOLOv5 五个版本。每
个版本的算法都是从前者的算法基础上改进而来的。 YOLO 算法是一种单阶段
目标检测器，其主要思想是将目标检测问题转化为回归问题进行处理。该算法
以图像作为输入，通过回归计算来确定图像中物体的类别和位置。 YOLO 的网
络结构基于 GoogLeNet，经过扩展并使用卷积神经网络实现了各层之间的联系，
其结构如图 2-9 所示。YOLO 系列的发展已经成为学术界和工业界最为关注的
目标检测算法之一，其高效的检测能力被广泛应用与汽车自动驾驶、安全系统
和图像分析等领域。下面将对 YOLO 系列的算法依次进行介绍。
15
图 2-6 YOLO 网络结构
YOLOv1 算法开创了单阶段检测算法的先河，它以深度卷积网络为主干网
络，通过特征提取和回归预测来完成目标检测任务。相较于传统目标检测算法，
YOLOv1 在检测精度和速度上都有很大的提升。深度卷积网络用于提取图像的
特征信息，提取的特征信息会被送入全连接层，以进行回归预测。通过回归预
测，算法可以同时对图像中的物体类别和所在位置进行计算，从而实现目标检
测。YOLOv1 算法的网络结构与一般的图像分类网络结构大体相似，不同之处
在于网络输出为三维张量并不是一维向量。
YOLOv2 算法在 2016 年被发布出来，主要为了解决 YOLOv1 在检测精度不
高的问题，并在其基础上进行了一系列的改进。为了缓解神经网络中的协变量
偏移的问题，YOLOv2 采用了批量归一化层（ Batch Normalization layer，BN
layer），在每个卷积层后面添加这一层。通过对每一批次数据进行归一化，可
以让每一层的输入数据都具有相同的均值和方差，进而提高了模型的稳定性和
收敛速度。其次 YOLOv2 算法移除了 YOLO v1 算法中的全连接层和最后一个池
化层，并借鉴了 FasterR-CNNs 算法，可以手动设置固定锚框数量，使得算法的
召回率得到了极大提升，并使用 K-means 聚类算法来确定目标边界框的数量。
在约束预测目标边界框方面，YOLOv2 算法还是沿用了 YOLOv1 算法中的网格
单元划分的方法，以此来稳定预测目标边界框的偏移量。最后 YOLOv2 算法使
用一种自行设计的 Darknet-19 网络作为 YOLOv2 算法的骨干网络，并在训练过
程中加入了多尺度训练，通过将训练集样本按照给定尺度的集合中进行随机缩
放，使得 YOLOv2 在已有的检测速度上提升了检测精度。
YOLOv3 算法在进一步优化 YOLOv2 的基础上，采用了更强大的主干网络
Darknet-53，它具有更强的特征提取能力和更深的网络结构。同时，YOLOv3 还
采用了 ResNet 的基本流程和思路，引入了残差连接的技术，进一步提高了网络
性能。Darknet-53 网络由 52 个卷积层、1 个全局平均池化层和 1 个全连接层组
成，相比于 ResNet-101 网络，它的性能更加出色。此外在 YOLOv3 算法中还采
用了多尺度预测策略，特征图尺寸分别是 13 ×13，26 ×26 和 52 ×52三种，分
别用来对大、中、小三种目标进行检测，因此 YOLOv3 算法具有 9 中不同尺度
的锚框，进而提升了对小目标的检测效果。需要强调的是 YOLOv3 算法结合了
16
三种损失函数，分别是位置损失函数、置信度损失函数和类别损失函数，并将
三种损失函数之和作为模型的损失。
YOLOv4 算法相比较 YOLOv3 算法，在整体的网络结构上面发生较大的变
化，网络结构主要由 Input、BackBone、Neck 和 Head 四部分组成，
（1）Input（输入层）：负责输入数据集，并采用 CutMix 和 Mosaic 两种
方法对图片进行数据增强，这样不仅可以减少训练批次，并且使数据集变得更
加丰富，进而提高网络的鲁棒性。
（2）BackBone（主干网络模块）：使用 CSPDarknet-53 模块作为主干网络，
该网络由 CSPNet(Cross Stage Partial Network)和 Darknet-53 融合得到。主要负
责图像的特征提取，为后续目标检测任务提供特征图像。
（3）Neck（颈部模块）：该模块由空间金字塔池化 SPP 子模块、特征金
字塔 FPN 和路径聚合 PAN 模块组成，当目标领域中引入 Neck 网络结构主要是
负责更好的提取融合特征，对 Backbone 提取得到的特征再进行相应的特征处理，
使其能够得到更加理想的效果。
（4）Head（检测头）：主要对得到的特征图像进行预测得到目标检测框的
位置以及对检测到的物体进行分类。
YOLOv5 算法整体的网络结构与 YOLOv4 算法相似，虽然检测准确度没有
多大的提高，但模型的检测速度更快，模型大小也更小。为了满足不同场景下
的需求，根据不同深度因子和宽度因子对网络结构进行缩放，从而衍生出
YOLOv5s ， YOLOv5m ， YOLOv5l ， YOLOv5x 四种网络结构。除此之外，
YOLOv5 算法还对输入图像和锚框进行了改进，为了将图像尺度进行统一，传
统的方法是采取长边缩放、短边补充的方式对图像进行缩放，而 YOLOv5 算法
采用自适应缩放策略对图像进行预测。而对于锚框来讲，YOLOv2 会提前预设
固定锚框，YOLOv3 和 YOLOv4 会预先聚类锚框，而 YOLOv5 算法在训练时将
重新计算新的锚框，否则锚框计算自动会关闭。
2、SSD
SSD 算法代表了目标检测领域的重大进步，它克服了 YOLO 算法的局限性，
因其提高的精度、速度和整体性能广泛应用到各个领域。其中使用 VGG16 特征
提取网络对输入图像进行不同维度的特征提取，并生成不同尺度的特征图。
17
SSD 与 YOLO 相比还有其他几个优势，首先，为了在不同比例的特征图上实现
目标检测，采用了特征金字塔网络 FPN（Feature Pyramid Network）。该网络将
深层特征与浅层特征相结合，以实现目标的检测。其次，为了优化网络，使用
了预测图的位置损失和分类损失的加权和，并通过端到端训练来实现。此外，
网络还在前向运行中统一实现了定位和检测分类，以提高网络的运行速度。最
后使用先验框设计有助于 SSD 更好匹配真实物体的矩形框，提高了对小目标检
测场景的整体适应性。其网络结构见图 2-10。
图 2-7 SSD 网络结构图

需要强调的是，由于 YOLOv1 中的小目标经过高层卷积后，其原有特征会
消失，因此在检测和识别小目标时，SSD 明显优于 YOLOv1。但因 SSD 在具体
的候选框数量上达到了惊人的 8732 个，因此在训练的时候相对较慢（曹连雨，
2022）。
3、EfficientDet
EfficientDet 是由谷歌团队提出的一种目标检测算法，网络结构如图 2-11 所
示。该算法基于 EfficientNet 架构，结合了 BiFPN（Bidirectional Feature Pyramid
Network，双向特征金字塔网络）和 NAS（Neural Architecture Search，神经网络
结构搜索）搜索算法，通过综合优化网络架构和特征提取过程来实现高效的目
标检测。为其中 BiFPN 将来自不同层级的特征图进行跨层级的信息交互和融合，
以便于检测不同尺度的目标，可以有效地提高模型的准确率和速度。NAS 搜索
算法通过对不同结构的网络进行搜索，可以在保证准确率的前提下，尽可能地
缩小网络规模，提高模型的计算效率。
与传统的目标检测算法相比，EfficientDet 具有更高的准确率和更快的检测
速度，同时还具有较小的模型尺寸和低的计算成本。因此，EfficientDet 在移动
18
端和嵌入式设备上的应用前景十分广阔，可以满足人们对高效、精准的目标检
测需求。
图 2-8 EfficientDet 网络框架

2.3.2 双阶段目标检测算法
l 、R-CNN
R-CNN 是一种基于卷积神经网络（CNN）的目标检测算法，于 2014 年由
Ross Girshick 等人提出，图 2-12 是 R-CNN 的算法流程。相比于传统的目标检测
算法，R-CNN 具有更高的准确率和更快的检测速度。其基本思想是将输入图像
分成多个候选区域，对每个候选区域进行卷积运算和特征提取，最后使用支持
向量机（SVM）分类器对候选区域进行分类。具体来说，R-CNN 采用不同大小
和比例的窗口，在图像上按照预定的步长进行滑动，将输入图像分成多个候选
区域。对于每个候选区域，R-CNN 采用卷积神经网络提取固定长度的特征向量，
然后使用线性 SVM 分类器对这些向量进行分类。在训练阶段，R-CNN 使用了
两种损失函数进行训练。第一种是分类损失函数，用于训练 SVM 分类器，使其
能够正确地将候选区域分类为目标或非目标。第二种是边界框回归损失函数用
于训练回归器，使其能够精确地定位目标物体。同时 R-CNN 也存在缺点，一是
训练是多阶段的，每部分网络都要单独训练，导致训练速度慢，过程及其繁琐。
二是候选区域经过 CNN 网络特征提取所生成的所有特征图都需要保存到硬盘，
之后用于 SVM 分类器的训练，这样不仅占用较多的空间，而且训练速度较慢。
三是候选区域存在大量的重叠，并且每一个都要进入网络，没有共享计算，进
而降低了检测的速度。
19
图 2-9 R-CNN 结构图
(2)Fast R-CNN
Fast R-CNN 是由 Ross Girshick 于 2015 年提出的一种流行的目标检测算法，
它是对早期的 R-CNN 算法的改进。Fast R-CNN 通过使用一次卷积神经网络
（CNN）的正向传递来同时生成目标提议和分类，以解决 R-CNN 的检测速度
缓慢的问题。Fast R-CNN 的关键创新在于使用区域兴趣（RoI）池化层，该层
从每个 RoI 中提取固定长度的特征向量，并将其馈送到全连接网络进行目标分
类。Fast R-CNN 还使用了一个多任务损失函数，同时优化目标检测准确度和目
标性得分。目标性得分是给定 RoI 包含对象的可能性的度量，它有助于过滤假
阳性。损失函数计算在正负 RoI 上，并使用随机梯度下降进行优化。总体而言，
Fast R-CNN 比 R-CNN 更快、更准确。它已经广泛应用于自动驾驶、机器人和
监控等领域，因此是一种流行的目标检测选择。Fast R-CNN 工作的基本流程见
图 2-12。
图 2-10 Fast R-CNN 过程图

(3)Faster R-CNN
Faster R-CNN 由 Shaoqing Ren 等人于 2016 年提出，是对 R-CNN 和 Fast R-
CNN 的进一步优化，如图 2-13 所示。相比于前两种算法，Faster R-CNN 的检测
20
速度更快，并且可以端到端地进行训练和测试。
Faster R-CNN 将目标检测分为两个阶段：一是在区域提取阶段， Faster R-
CNN 引入了一种名为 RPN（Region Proposal Network）的神经网络，用于生成
图像中可能包含目标的候选区域，这些区域称为“锚点框”。二是在检测阶段，
Faster R-CNN 使用 RoI Pooling 层从每个锚点框中提取固定长度的特征向量，并
送入全连接层进行分类和边界框回归。在训练过程中，Faster R-CNN 使用多任
务损失函数来同时训练 RPN 和检测网络。损失函数包括两部分：分类损失和边
界框回归损失。其中，分类损失用于训练 RPN，边界框回归损失用于训练检测
网络。在测试阶段，Faster R-CNN 使用非极大值抑制算法对检测结果进行后处
理，去除重复的检测框，并保留置信度最高的检测结果。Faster R-CNN 通过引
入 RPN 网络实现了端到端的目标检测，并在速度和准确率方面取得了较好的结
果。
图 2-11 Faster R-CNN 结构图
(4)MaskR-CNN
Mask R-CNN 是一种基于 Faster R-CNN 的实例分割算法（He，2017），由
Kaiming He 等人在 2017 年提出，如图 2-14 所示。Mask R-CNN 不仅可以检测出
图像中的对象，还能对每个对象进行精确的分割，即生成一个对象的二进制掩
码，因此被称为实例分割算法。Mask R-CNN 的基本思想是在 Faster R-CNN 的
基础上添加一个分割分支，该分支利用 RoIAlign 技术从每个候选区域中提取出
固定大小的特征图，然后在特征图上应用卷积层来生成每个对象的二进制掩码。
这个分割分支与 Faster R-CNN 的检测分支是平行的，因此可以共享卷积特征，
从而减少计算量。与传统的分割算法相比，Mask R-CNN 采用的是一种端到端
的训练方式，可以同时学习检测和分割任务，从而使得整个算法的效率和精度
21
都得到了提高。Mask R-CNN 的训练过程与 Faster R-CNN 类似，包括对特征提
取网络和检测网络的端到端训练，以及对分类器和回归器的微调。同时，在训
练过程中还需要使用额外的分割损失函数，该损失函数用于度量检测结果和真
实分割掩码之间的差异。在测试阶段，Mask R-CNN 可以同时输出对象的类别、
位置和二进制掩码，从而实现了高效的实例分割。
图 2-12 Mask R-CNN 结构图
2.4 本章小结
本文首先介绍了深度学习的概念与结构，之后详细的介绍了卷积神经网络，
对卷积，池化，全连接，激活函数进行了详细介绍。最后对较为经典的网络如
YOLO 的四个部分进行详细的阐述。
22
第3章融合注意力机制的带钢表面缺
陷检测方法实验与模型
3.1 实验环境及实验设计
3.1.1 实验环境
本文所使用的硬件平台是基于英特尔 i5-13600kf CPU ，以及英伟达
RTX3060 12GB 内存的 GPU。Pytorch 版本为 1.9.0，cuda 版本为 11.2，其他主要
辅助软件为 Anaconda4.9.2 和 Python 3.9.7。该软件平台实现了基于 PyTorch 框架
的深度神经网络模型的构建和训练。PyTorch 是一个使用 Python 编程语言的开
源深度学习框架。它可以处理张量数据，并封装了常见的基本操作单元（如卷
积、池化和全连接），方便用户定制深度神经网络结构。它可以同时实现张量
的自动推导和大多数模型训练的优化算法。
3.1.2 数据集
本研究中所使用的光学图像是从东北大学（NEU）的开放表面缺陷数据库
上收集而得。本研究图片源自视觉解释来识别和绘制带钢表面缺陷位置，并且
通过多位专家通过人工标注缺陷位置得到目标检测标签，并且为了保证标注缺
陷的质量，并且有三位专家对缺陷解释结果进行了交叉验证。在这个数据库中，
收集了六种热轧钢带典型表面缺陷的样本，即滚入氧化物（ RS ）、斑纹
（Pa）、龟裂（Cr）、麻点（PS）、夹杂物（In）和划痕（Sc）。提供的图像
是灰度图像，数据库包括 1,800 张灰度图像：每种六种不同典型表面缺陷样本
23
各 300 个样本。
以下展示的是图像中只含有龟裂的示例：
以下展示的是图像中只含有夹杂的示例：
以下展示的是图像中只含有斑纹的示例
以下展示的是图像中只含有麻点的示例
24
以下展示的是图像中只含有滚入氧化的示例
以下展示的是图像中只含有划痕的示例
以下图像是展示两种不同缺陷的示例
25
以下图像是展示三种不同缺陷的示例
3.1.3评估准则
本文采用四个综合指标： Precision、Recall、mAP50.，用来评估上述改
进的 YOLOv5 在我们的数据集中的检测性能。
其中准确率（Precision）、召回率（Recall）、平均准确率（AP）、平均
准确率均值（mAP）计算方式为：
Precision 反映了模型区分 negative 样本的能力，Precision 越高，表明

模型区分 negative 样本的能力越强；
而 Recall 反应了模型区别 Positive 样本的能力，Recall 越高，表明模型
26
区别 Positive 样本的能力越强。
mAP 即为所有类别 AP 的平均值，可以用于衡量多类别目标检测的好坏。本

实验计算了 IoU 阈值为 0.5 的平均准确率，如无特殊标注，本论文中所述的 mAP
均为 mAP50.
其中，为真正例，为假正例，为假负例，为目标检测的总类别
数、可以理解为类别的目标预测为类别目标的数量。
3.2 模型改进
3.2.1 传统YOLO 架构
本文使用的基线模型是 YOLOv5，它由 Ultralytics LLC 在 2020 年提出。从

结构上看，它是一个单阶段的检测框架，由四个单元组成：输入、骨干、颈部
和输出。在借鉴了 YOLO 家族早期版本和其他检测算法的优点后，YOLOv5 将焦点
层嵌入到输入中。同时，它在骨干层中使用 DarkNet53 来提取图像的主要特征。
一个包含特征金字塔结构（FPN）和自下而上的路径聚合网络的特征融合框架也
被嵌入到颈部网络中，以加强多尺度特征的跨层融合。最后，提取的特征图通
过 YOLO 头进行多尺度目标检测。完整的 YOLOv5 结构如图所示。
27
×3
C3_3 = Conv BottleNeck Concat Conv = Conv2d BN SiLU
640×640
Conv
SPPF = Conv MaxPool2d MaxPool2d MaxPool2d
Concat
Conv
Conv
Conv
C3_3 C3_3
Conv Concat Conv
C3_6 Upsample Conv
Conv Conv Concat
C3_9 C3_3 C3_3 Conv
Conv Concat Conv
C3_3 Upsample Concat
SPPF Conv C3_3 Conv
Backbone Neck Head
图 3.1 YOLOv5 的结构

输入：使用马赛克模块增加了数据量，使用四张图像进行随机缩放、随机
裁剪、随机拼接，大大丰富了图像的背景信息，增加了批量大小。融合后，丰
富了背景信息，减少了计算负担。而自适应图像缩放模块将输入图像的大小调
整为 640×640 像素的一致尺寸。在网络训练中，网络根据初始锚定框输出预测
框，然后与地面真实框进行比较，计算出它们之间的差距，然后向后更新，以
迭代网络参数。
骨干网： YOLOv5 选择 CSPDaknet53 作为骨干网络；骨干网络由 Focus 层、
CSPNet 框架和空间金字塔集合（SPPF）模块组成。Focus 层定期从高分辨率图
像中抽取像素点，并将其重建到低分辨率图像中，将图像的四个相邻位置堆叠
起来，以提高每个点的感受野，减少原始信息的损失。CSPNet 框架形成骨干网
络，通过残差连接增强不同维度特征图的特征。SPPF 模块在 1×1、5×5、9×9
和 13×13 四个不同维度上进行最大集合，以增强网络对图片特征信息的判别能
力。
颈部： YOLOv5 的特征融合结构借鉴了 YOLOv4 的路径聚合特征金字塔网络
（PAFPN），它有效地实现了高层语义信息和低层表征信息的融合。它为目标检
测提供了更多的翻译不变性，以提高网络的定位能力，同时也为模型分类提供
了丰富的翻译不变性。它可以有效地促进不同尺度之间的细节特征和语义特征
的融合，显著提高检测小目标的性能，有效解决目标检测任务中的多尺度问题，
28
因此，基于 FPN 的大量改进的特征融合结构已经被引入。
输出：输出采用非最大抑制（NMS）与 CIoU 损失函数，其中 NMS 提高了网
络模型检测重叠物体的性能，而 CIoU 则巩固了 YOLOv5 良好的检测性能。
3.2.2 基于 YOLOv5 改进
（1）引入 CA 注意力机制：本文发现骨干网在面对带钢表面缺陷图像时，
特征提取不足，如带钢缺陷图像的边缘等细节信息在提取中丢失。因此，在
YOLOv5 骨干网的第一个 C3 模块之后嵌入了 Coordinate Attention 模块，这样
网络模型不仅考虑了通道信息，还考虑了方向相关的位置信息。此外，它具有
足够的灵活性和轻量级，可以提高物体检测的准确性，特别是在小物体上，而
不会过度增加模型参数的数量。Coordinate Attention 模块是为了加强对移动
网络所学特征的表示，它可以将输出转化为网络中任何中间特征张量的相同大
小。Coordinate Attention 的构造如图所示。
图 3.2 CA 注意力机制结构
首先，此处为了避免空间信息全部压缩到通道中，这里并没有使用全局平
均池化，为了可以获取更有精确位置信息的远程空间交互，对全局平均池化进
行的分解，具体如下公式所示：
29
这使得尺寸为输入特征图分别按照 X 与 Y 方向进行池化，分别生
成尺寸为和的特征图。
其次，将生成的的特征图进行变换，之后进行 concat 操作，公式
如下所示：
 
f   F1  z h , z w  
将和进行 concat 后生成如下图所示的特征图，然后进行降维与激活
操作，生成特征图
最后沿着空间维度，进行 split 操作，分为，，
在分别利用 1×1 卷积进行升维操作，结合 sigmoid 激活函数得到最终的注意力
向量，
最终输出公式可以写成：
本文引入 CA 协调注意力机制不仅使模型的体量没有过度增大，并且可以充
分捕获带钢表面缺陷的特征信息，准确地突出其中显示感兴趣的区域，获取渠
30
道间的关系，这是本文引入 CA 注意力机制的主要意义。
（2）C3 模块结合 CBAM：卷积注意模块（CBAM）的作用是对网络中的特征
进行加权和缩放，以提高网络的表现力和准确性。如图所示，CBAM 由两部分组
成：通道注意和空间注意。通道注意力用于对特征通道进行加权，自适应地调
整每个通道的重要性，以提高网络对特定特征的感知能力。另一方面，空间注
意力用于加权特征图的空间维度，通过自适应调整每个空间位置的重要性来提
高网络对空间位置的感知能力。通过使用 CBAM，网络可以更好地学习输入数据
中的特征，可以更好地区分不同的对象和背景。
图 3-3 CBAM 模型图

在 YOLOv5 中，颈部部分通常由多个 C3 模块（卷积层堆栈）组成，用于提
取不同层的特征并将其融合在一起。将 CBAM 模块与 C3 模块相结合，可以进一
步提高模型的性能，帮助网络更好地捕捉不同尺度的特征，并通过通道注意和
空间注意机制增强特征表示，如图所示。此外，CBAM 模块可以帮助模型更好地
处理常见的视觉干扰，如背景噪声和光照变化，从而使模型在实际应用中更加
稳健和可推广。
31
图 3-4 与 CBAM 的结构相结合
最终得出 YOLOv5 改进版本。
×3
C3_3 = Conv BottleNeck Concat Conv = Conv2d BN SiLU
Conv
Conv SPPF = Conv MaxPool2d MaxPool2d MaxPool2d
Conv Concat
C3_3 Conv
CA
C3CBAM
Conv
Concat Head
C3_6
Upsample Conv
Conv
Conv Concat
C3_9
C3CBAM C3CBAM Head
Conv Concat Conv
C3_3 Upsample Concat
SPPF Conv C3CBAM Head
Backbone Neck Head
图 3-5 基于 YOLOv5 改进模型的结构
3.34 本章小结
为了提高网络模型的特征融合和信息提取能力，本文在传统的 YOLOv5 骨干
网络中嵌入了坐标注意（CA）。为了提高模型对位置信息的感知能力，本文将
YOLOv5 的颈部多卷积模块与 CBAM 注意机制相结合。最后，本文综合了上述改进
32
点，得到了一个精度超越其他模型的缺陷检测方法：YOLOv5 改进版本。
33
第4章带钢表面缺陷检测实验
在工业生产中，带钢表面缺陷的检测非常重要，因为它们可能导致质量问
题和安全问题。通过使用计算机视觉技术对图像进行检测，可以快速准确地识
别带钢表面的缺陷，并采取适当的纠正措施。YOLOv5 是一种有效的深度神经网
络训练技术，在缺陷检测中得到了广泛应用。在本研究中，我们使用了深度学
习模型改进后的 YOLOv5 对带钢表面进行缺陷检测。
4.1 数据预处理
4.1.1 数据标注
该数据集利用目标检测算法标注软件 Labelme 对图像进行带钢缺陷区域标

注，可以手工标注需要检测的物体位置与类别。Labelme 图像标注工具在使用
过程中，需先导入需要标注的图片，并用矩形框选取所需标注的目标，尽量使
矩形处于目标的最小外接矩形，以便能够准确标定目标的位置。画好矩形框后，
对所选目标的类别进行标注即可完成对图像的标注。在标注过程中需要注意，
将图像上所有在检测范围内的目标都进行标注。标注后，可以得到一个对应
的.xml 文件。
4.1.2 图像裁剪
本文中采用图像裁剪技术的主要目的有两方面：一是增加模型的训练数据
量，深度学习模型需要大量的数据进行训练，以学习到更多、更完整的图像特
征信息；二是提高图像质量。具体而言，图像裁剪通过调整图像的构图来去除
不相关的区域，突出图像的主体。本文的数据集是 200 ×200 的带钢缺陷影像，
由于图像中包含大量的无关信息，直接将原始图像用于训练会增加模型的难度。
34
因此，通过图像裁剪技术将图像中的带钢缺陷区域裁剪出来，并且进行一定放
缩操作，得到大小为 640 ×640 的图像。这样可以更有效地训练模型，提高目标
检测的准确性和效率。
4.1.3 数据增强
数据增强可以理解为在数据量庞大到一定程度时，想要再提升模型的效果，
主要采用的方式是提升模型的容量，让模型有更好的拟合能力，而当数据并不
是很大时，采用更多的后验知识可以提升模型的效果。YOLOv5 算法在输入端采
用了 Mosaic 数据增强和 Mixup 数据增强两种，其中 Mosaic 数据增强随机放缩
并拼接 4 张图片用于模型训练的输入，且其在 YOLOv4 中的效果证明了其能显著
性提升精度。Mixup 数据增强则随机将两张不同图片用一定比例混合重叠，通
常用于丰富数据集的样本数量、降低噪声样本给算法带来的负面影响进而提升
模型泛化能力。因此本文使用 Mosaic 数据增强随机抽取四张带有带钢缺陷标签
的图像。
在模型的训练过程中，Mosaic 数据增强首先遍历并选择一张图像，然后在
训练集中随机选择三张图像，并对这些图像进行随机压缩和拼接，得到合成图
像; Mosaic 数据增强后的图像大小将转换为模型输入的大小。因此，图像的选
择和组合具有高度的随机性，并且会有几种不同的图像组合，这在很大程度上
丰富了训练集。由于 Mosaic 数据增强显著增加了模型中的训练样本数量，因
此模型的鲁棒性得到了显著提高。这样可以减小检测目标的规模，提高其对小
目标的检测效果。由于带钢影像的最终视觉感官效果容易受到镜头等因素影响，
容易与噪声信息混合，因此通过 Mosaic 数据增强随机组合了 4 幅图像，有助于
提高模型的抗干扰能力。
4.12 实验环境及参数
训练过程中，我们需要设置参数如 Batch Size、学习率、损失函数等。其

中，Batch Size 表示每次输入神经网络的样本数量，学习率表示每次迭代时更
新权重的步长，损失函数用于评估模型在训练集上的表现。在优化策略中，我
们采用基于 Adam 优化器的交叉熵损失函数训练模型，设置不同的批处理大小、
35
学习率等超参数进行微调，并使用验证集来选择最佳模型。
其中训练集、验证集和测试集的比例分别为 80%：10%：10%，其中训练集
1440 张，验证集 180 张，测试集 180 张。在训练前对本文的模型进行主要的参
数设置，所有训练的 epochs 为 100 ，分为两个阶段。第一阶段训练 50 个
epoch，batch size 为 8，初始学习率为 5×10-4，采用 0.94 的衰减率每训练一
个 epoch 对学习率进行更新；第二阶段训练 50 个 epoch，batch size 为 4，初
始学习率为 1×10-5，同样采用 0.94 的衰减率每训练一个 epoch 对学习率进行
更新。每轮迭代后，自动打乱数据集顺序，重新输入，减少出现过拟合。
在本文中，我们绘制了基线模型 YOLOv5 和改进的 YOLOv5 模型在训练过程
中，验证集上 mAP 和损失的变化曲线，如图所示。在训练 100 个历时的过程中，
模型的 mAP 和损失振幅逐渐减弱并趋于稳定，说明模型已经训练完毕。在改进
的 YOLOv5 训练过程中，验证数据集的 mAP 稳定在 92.28%，高于 YOLOv5 的水平。
这表明改进的 YOLOv5 模型在带刚表面缺陷数据集上比 YOLOv5 有更好的检测效
果。
图 4.1 损失曲线
36
图 4.2 MAP 曲线
4.2 实验数据集介绍
上一章的数据集展示挪过来
4.3 数据预处理
上面的数据预处理挪过来
4.43 实验结果
以下是测试结果中的检测效果（左边是实际图，右边是检测图）：
37
38
为了确定基于 YOLOv5 改进模型的性能，本文将其与当前四种先进和经典的
物体检测模型进行了比较。这些模型包括 YOLOX、Fast R-CNN 和 SSD，结果见表。
模型对比表 a
Model Precision(% Recall(% mAP(%)

) )
Fast R-CNN 90.15 61.13 77.92
SSD 89.61 79.26 82.38
改进 YOLOv5 模型 96.45 86.79 92.28
模型对比表 b
Model Precision(% Recall(% mAP(%)

) )
YOLOX 91.58 64.40 79.08
改进 YOLOv5 模型 96.45 86.79 92.28
改进后的 YOLO 模型直接从网络中提取带钢缺陷特征信息，其关注点是带钢

缺陷特征，同时避免过多地关注背景噪声信息。CA、C3CBAM 的加入增强了模型
39
在不同尺度上获取特征信息的能力，并提高了模型在面对不同带钢缺陷时的鲁
棒性。通过对各先进检测器的比较，改进后的 YOLOv5 取得了最好的检测性能，
其中 mAP 达到 92.28%，比 YOLOX 高出 13.2%，比 Fast R-CNN 高出 9.9%，比 SSD
高出 7.53%。结果表明，改进后的 YOLOv5 比其他模型更适合于带钢表面缺陷的
自动检测工作。
4.4 优势与不足
4.4.1 模型优势
在 YOLO 模型主干网络中加入坐标关注，可以增强 YOLO 模型在影像特征提

取方面的鲁棒性，提高模型对带钢缺陷影像细节信息的提取，提高模型检测精
度。Neck 的 C3 模块与 CBAM 的融合可以提高模型对带钢表面质量缺陷具体特征
的感知能力，增强对带钢表明质量缺陷物体与背景噪声的区分能力。
模型的高精度是物体检测网络模型的发展趋势，我们在模型中融入了注意
力机制，使得模型在精度上上升了一个层次，实现了带钢表面缺陷的高精度识
别。
4.4.2 模型不足
从模型评估指数与模型实际检测效果中可以得出，模型检测效果仍存在一
定的不足之处。首先虽然模型在评估指数上取得了 mAP 为 92.28%的优异程度，
但是模型实际检测效果并不好。其面对小尺度的带钢表面缺陷时会出现漏检的
情况，并且面对多尺度的带钢表面缺陷时会导致出现多个目标合并检测的情况，
这也为检测不充分的情况之一，这导致了模型面对相关检测问题时会出现失误。
研究中只考虑了精度的提升，没有考虑模型体量的增加，我们在模型中融
入注意力机制也只是将其嵌入，而非替换某些卷积模块实现融入注意力机制，
这势必会造成模型体量增加，在后续的研究中可以考虑再将模型轻量化处理，
实现高效目标检测。
40
4.5 本章小结
带钢缺陷检测系统是一个重要的研究领域，在未来有很大的发展空间。该
系统可以通过不断优化模型和数据集来提高准确率，并且可以扩展到多种应用
场景中。研究结果表明，使用深度学习模型对图像进行目标检测是一种有效的
方法。该方法可以帮助生产企业快速准确地识别带钢表面的缺陷，并采取适当
的纠正措施。
41
第5章总结与展望
5.1 全文总结
深度学习相关技术可以从带钢表面质量缺陷图像中提取相当丰富的语义信
息来实现目标检测。本文提出了一种用于灾害防护业务的轻量级带钢缺陷识别
网络模型，该模型基于 YOLOv5 框架、CA、C3CBAM 构建了 YOLOv5 改进版本，在
识别多尺度、小对象缺陷对象方面具有良好的检测性能，其 mAP 为 92.28%，与
YOLOv5 的 mAP 相比，提高了 3.01%。本研究的主要结论如下：。
（1）在 YOLO 模型主干网络中加入坐标关注，可以增强 YOLO 模型在影像特
征提取方面的鲁棒性，提高模型对带钢缺陷影像细节信息的提取，提高模型检
测精度。
（2）Neck 的 C3 模块与 CBAM 的融合可以提高模型对带钢表面质量缺陷具体
特征的感知能力，增强对带钢表明质量缺陷物体与背景噪声的区分能力。
5.2 工作展望
展望一般是从本文没考虑的地方出发。先点出本文方法无法达到实时性要
求，然后引出后续工作：轻量化。
模型的轻量化和高精度是物体检测网络模型的发展趋势，但直接轻量化模
型会导致模型精度的较大损失。如果能将模型与轻量级特征增强模块和轻量级
特征提取模型相结合，就可以在不过度增加原模型参数数量的情况下提高原模
型的特征提取能力，甚至达到比原模型更高的精度。
参考文献！！！
42

李晓春毕业论文终稿 批注

Uploaded by

Copyright:

Available Formats

You might also like

李晓春毕业论文终稿 批注

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

李晓春毕业论文终稿 批注

Uploaded by

Copyright:

Available Formats

本科毕业设计（论文）开题报告

带钢是现代钢铁业的重要组成部分，中国带钢生产规模在 2020 年将突破

图 2-2 LeNet-5 网络结构

图 2-7 SSD 网络结构图

图 2-8 EfficientDet 网络框架

图 2-10 Fast R-CNN 过程图

图 2-11 Faster R-CNN 结构图

图 2-12 Mask R-CNN 结构图

Precision 反映了模型区分 negative 样本的能力，Precision 越高，表明

而 Recall 反应了模型区别 Positive 样本的能力，Recall 越高，表明模型

mAP 即为所有类别 AP 的平均值，可以用于衡量多类别目标检测的好坏。本

其中， 为真正例， 为假正例， 为假负例， 为目标检测的总类别

数、 可以理解为类别 的目标预测为类别 目标的数量。

本文使用的基线模型是 YOLOv5，它由 Ultralytics LLC 在 2020 年提出。从

Conv Concat Conv

C3_6 Upsample Conv

Conv Conv Concat

C3_9 C3_3 C3_3 Conv

Conv Concat Conv

C3_3 Upsample Concat

SPPF Conv C3_3 Conv

Backbone Neck Head

图 3.1 YOLOv5 的结构

最后沿着空间维度，进行 split 操作，分为 ， ，

在分别利用 1×1 卷积进行升维操作，结合 sigmoid 激活函数得到最终的注意力

图 3-3 CBAM 模型图

Conv Concat Conv

C3_3 Upsample Concat

SPPF Conv C3CBAM Head

Backbone Neck Head

图 3-5 基于 YOLOv5 改进模型的结构

该数据集利用目标检测算法标注软件 Labelme 对图像进行带钢缺陷区域标

训练过程中，我们需要设置参数如 Batch Size、学习率、损失函数等。其

Model Precision(% Recall(% mAP(%)

Fast R-CNN 90.15 61.13 77.92

SSD 89.61 79.26 82.38

改进 YOLOv5 模型 96.45 86.79 92.28

Model Precision(% Recall(% mAP(%)

YOLOX 91.58 64.40 79.08

改进 YOLOv5 模型 96.45 86.79 92.28

改进后的 YOLO 模型直接从网络中提取带钢缺陷特征信息，其关注点是带钢

在 YOLO 模型主干网络中加入坐标关注，可以增强 YOLO 模型在影像特征提

You might also like

李晓春毕业论文终稿批注

李晓春毕业论文终稿批注

李晓春毕业论文终稿批注

其中，为真正例，为假正例，为假负例，为目标检测的总类别

数、可以理解为类别的目标预测为类别目标的数量。

最后沿着空间维度，进行 split 操作，分为，，