11.毕业设计论文_匿名版

本科毕业设计论文
题目：高分辨遥感图像海面目标智能识别研究
学院：信息工程学院
专业：智能与科学
班级：
学号：
学生姓名：
指导老师：
提交日期： 2023 年 5 月
Dissertation Submitted to Zhejiang University of Technology
for the Degree of Bachelor
Research on Intelligent Recognition of Sea Surface

Targets in High-Resolution Remote Sensing Images
Student:
Advisor:
College of Information Engineering

Zhejiang University of Technology
June 2023
浙江工业大学
本科生毕业设计(论文、创作)诚信承诺书
本人慎重承诺和声明：
1. 本人在毕业设计（论文、创作）撰写过程中，严格遵守学校有关规
定，恪守学术规范，所呈交的毕业设计（论文、创作）是在指导教师指导
下独立完成的；
2. 毕业设计（论文、创作）中无抄袭、剽窃或不正当引用他人学术观
点、思想和学术成果，无虚构、篡改试验结果、统计资料、伪造数据和运
算程序等情况；
3. 若有违反学术纪律的行为，本人愿意承担一切责任，并接受学校按
有关规定给予的处理。
学生（签名）：
年月日
本科生毕业设计（论文、创作）任务书
专业班级学生姓名/学号
一、设计（论文、创作）题目：高分辨遥感图像海面目标智能识别研究
二、主要任务与目标：
基于深度学习方法设计一种网络结构，用于对 SAR 图像进行海上舰船目标识别。 SAR
图像中目标轮廓模型，设计的深度学习网络应准确定位舰船目标，并且要具有一定的
鲁棒性和实时性。
三、主要内容与基本要求：
1.完成深度学习模型的设计，整个模型应该结构合理且效果显著 2.在对应的公开数据
集进行实验，与其他深度学习方法进行对比，验证有效性，达到指定性能指标 3. 撰
写毕业论文和提交相关资料
四、计划进度：
2023.12.1~2024.2.25 收集相关资料文献，学习深度学习、目标检测基础知识；完成外
文翻译、文献综述；熟悉并入门该课题，为开题做好准备；
2024.2.26~3.3 初步设计方案形成，完成开题报告，参加开题交流；
2024.3.4~4.21 完成深度学习网络设计，接受中期检查；
2024.4.22~5.19 在公开数据集进行验证，完成对比实验。撰写毕业论文初稿，修改论
文；
2024.5.20~6.2 毕业论文答辩，提交相关文档资料。
五、主要参考文献：
[1] 谢滔. 基于区域分割的 SAR 图像舰船目标检测技术研究[D].国防科技大学,2019；
[2] 何敬鲁 . SAR 图像舰船目标检测与分类方法研究 [D]. 西安电子科技大
学,2019.DOI:10.27389/d.cnki.gxadu.2019.003111；
[3] Guo Yue,Chen Shiqi,Zhan Ronghui,Wang Wei,Zhang Jun. LMSD-YOLO: A Lightweight
YOLO Algorithm for Multi-Scale SAR Ship Detection[J]. Remote Sensing,2022,14(19).
任务书下发日期 2023 年 12 月 1 日
设计（论文、创作）指导教师
系主任（专业负责人）
主管院长
高分辨遥感图像海面目标智能识别研究
摘要
随着全球海洋活动的增长，精确识别海面目标变得越来越重要。传统遥感图像处
理技术在处理如小目标识别和复杂海洋背景干扰等问题时存在挑战。本研究通过深度
学习技术的改进，特别是通过升级 RFCOS 模型的骨干网络，显著提升了模型的性能。
将骨干网络从 ResNet-50 更换为 ResNet-101 后，模型的特征提取能力得到增强，使得
在 SAR Ship Detection Dataset 数据集上的平均精度（mAP）从 67.8%提升到了 69.4%。
此外，本研究还与其他先进的模型如 YOLOv8、Caster-RCNN 和 Faster-RCNN 进
行了性能对比。改进后的 RFCOS 模型在处理复杂背景和提高检测精确度方面显示出显
著优势。这些成果不仅提升了海面目标识别的精度和稳定性，也为海洋监测技术的进
步提供了重要支持。通过这项研究，我们展示了深层网络结构和算法改进在提高遥感
图像处理性能中的有效性，对未来的海洋环境监测任务具有重要的实际应用价值。
关键词：旋转框，水平框，高分辨遥感图像，海面目标识别
I
2
RESEARCH ON INTELLIGENT RECOGNITION OF

MARITIME TARGETS IN HIGH-RESOLUTION
REMOTE SENSING IMAGES
ABSTRACT
As global maritime activities increase, accurate identification of sea surface targets

becomes increasingly crucial. Traditional remote sensing image processing technologies face
challenges in dealing with issues like small target recognition and complex marine
background interference. This study enhances model performance significantly through
advancements in deep learning technology, particularly by upgrading the backbone network
of the RFCOS model. By switching the backbone network from ResNet-50 to ResNet-101,
the model's feature extraction capabilities were enhanced, increasing the mean average
precision (mAP) on the SAR Ship Detection Dataset from 67.8% to 69.4%.
Additionally, this study also compares performance with other advanced models such as
YOLOv8, Caster-RCNN, and Faster-RCNN. The improved RFCOS model demonstrates
significant advantages in handling complex backgrounds and improving detection accuracy.
These achievements not only enhance the precision and stability of sea surface target
identification but also support the advancement of marine monitoring technology. Through
this research, we demonstrate the effectiveness of deep network structures and algorithm
improvements in enhancing the performance of remote sensing image processing, which
holds significant practical application value for future marine environmental monitoring
tasks.
KEY WORDS: rotated bounding box, horizontal bounding box, high-resolution remote
sensing image, sea surface target identification
II
目录
ABSTRACT.............................................................................................................................II
第1章绪论........................................................................................................................1
1.1 研究背景与意义...........................................................................................................1
1.2 国内外研究现状...........................................................................................................3
1.3 研究内容与目标...........................................................................................................4
1.4 本文组织结构...............................................................................................................4
第 2 章理论基础与相关技术..................................................................................................6
2.1 卷积神经网络概述.......................................................................................................6
2.1.1 神经元.................................................................................................................7
2.1.2 卷积层.................................................................................................................8
2.1.3 激活函数.............................................................................................................9
2.1.4 池化层...............................................................................................................11
2.2 目标检测技术概述.....................................................................................................12
2.2.1 目标检测的算法原理.......................................................................................13
2.2.2 边界框表示.......................................................................................................13
2.3 旋转框目标检测技术.................................................................................................14
2.4 本章小结.....................................................................................................................14
第 3 章基于典型深度学习的水平框检测............................................................................16
3.1 典型的基于深度学习的目标检测算法.....................................................................16
3.1.1 YOLOv8............................................................................................................16
3.1.2 Faster R-CNN....................................................................................................17
3.1.3 Cascaded R-CNN..............................................................................................18
3.2 数据集介绍.................................................................................................................19
3.2.1 SAR-Ship-Dataset.............................................................................................19
3.3 模型评价指标.............................................................................................................20
3.4 实验结果与分析.........................................................................................................22
3.5 本章小结.....................................................................................................................24
第 4 章基于改进 RFCOS 的旋转框检测.............................................................................25
4.1 FCOS 介绍...................................................................................................................25
4.2 FCOS 网络解析...........................................................................................................25
4.2.1 骨干网络 backbone...........................................................................................26
4.2.2 Neck 特征金字塔..............................................................................................27
4.2.3 FCOS Head.......................................................................................................28
4.2.4 RFCOS 介绍.....................................................................................................28
III
4.3 数据集介绍.................................................................................................................29
4.4 模型改进前后对比.....................................................................................................30
4.5 结果分析.....................................................................................................................31
4.6 本章小结.....................................................................................................................32
第 5 章总结与展望................................................................................................................34
5.1 总结.............................................................................................................................34
5.2 展望.............................................................................................................................35
参考文献......................................................................................................................37
致谢......................................................................................................................................40
IV
浙江工业大学本科毕业设计论文
第1章绪论
1.1 研究背景与意义
随着全球海洋活动的增加，海上安全监控的需求也日益增加，尤其是在高精度目
标识别方面。传统的遥感图像技术，如合成孔径雷达（SAR）图像，虽然具有全天候
工作的优势，能够在恶劣天气条件下进行舰船监测，但在实际应用中仍然面临一些挑
战。SAR 图像在处理海面目标时，经常由于目标定位不精确和类别判别困难而受限
[1]
。为了提升目标检测的准确性和效率，本研究提出了一种新的旋转框目标检测方法，
以更精准地识别和定位图像中的海上舰船。
研究背景中，舰船作为重要的民用和军事目标，基于深度学习的遥感雷达图像舰
船检测和识别具有重要的理论意义和应用参考价值。近年来，深度学习技术在目标检
测与识别领域取得了广泛应用，为舰船目标检测与分类识别提供了坚实的基础。卷积
神经网络（Convolutional Neural Network，CNN）作为深度学习的重要模型，不断被应
用于遥感图像领域。
合成孔径雷达（SAR）是一种高分辨率成像雷达，能够在极低能见度的气象条件
下获取高分辨率的图像，如图 1-1，展示 SAR 图像的获取原理。SAR 凭借其广泛的遥
感观测范围、短观测周期、高分辨率及全天候工作的成像特点，已成为海上舰船检测
的重要途径 [2]。而普通光学图像虽然能够区分地面和低云，并清晰呈现云的纹理，但
其成像时间和地点受到限制。红外图像通过测量物体向外辐射的热量进行成像，具有
分辨率差、对比度低、信噪比低、视觉效果模糊及灰度分布与目标反射特征无线性关
系等缺点[3]。因此，综合考虑各种成像技术的优缺点，SAR 图像被认为更适合用于海
上舰船检测。
以高分一号为代表的中国高分系列卫星，在高空间分辨率、多光谱和时间分辨率
光学遥感等关键技术上取得了重要突破，这极大地推动了我国卫星工程水平的进步，
提高了我国高分辨率数据的自给率。近年来，我国陆续发射了高分二号至七号以及高
分十一号、十三号、十四号等卫星，分辨率达到了 0.1 米。这些卫星能够对海面进行
不间断的持续监控，且不受雷雨天气的影响。然而，关于 SAR 图像的国防领域应用信
息相对较少，实际应用也较为有限，主要面临数据集缺乏的问题。随着高分系列卫星
遥感成像分辨率的不断提高，寻找合适的公开数据集，并基于这些数据集进行舰船目
标识别研究，对于提升我国国防能力具有重要的战略意义。
1
图 1-1 SAR 原理图

Figure 1-1 SAR principle diagram
在遥感卫星图像检测任务中，目标的背景环境、地理位置、天气条件等自然因素
都会影响目标识别的准确性。当舰船目标处于广阔且稀疏的海面上时，样本与背景的
不平衡性更加明显，目标规模变化较大，并且容易受到海杂波、云干扰、岛礁等障碍
物的影响，这些都使得海上舰船识别面临诸多挑战。
人工智能的基础依赖于图像处理、文本处理和语音处理三大模块。基于深度学习
的遥感雷达图像舰船检测研究属于图像处理模块。现代人工智能依赖于深度学习技术，
即通过提取图像的有效特征并进行处理，最终识别出目标。在深度学习技术中，手工
设计特征既耗时又复杂，并且依赖于数据自身特征与专业知识背景。对于缺乏经验的
研究人员来说，设计和选择海面遥感舰船目标特征的算法通常十分困难。因此，我们
希望利用一种高效的方法自动寻找和学习特征，通过海量数据的训练与学习，建立起
复杂的网络结构和强大的分类器，获得更准确的特征表达。如何利用深度学习技术进
行海面遥感舰船目标识别并提升其效率和性能，已成为亟待解决的问题。
为了更好地应对这些挑战，我们在本研究中提出了一种新的旋转框目标检测方法。
传统的目标检测方法主要使用水平框来标记目标，这在处理旋转物体或角度变化较大
的目标时，容易出现不准确的问题。旋转框目标检测方法通过使用旋转矩形框，更加
精确地包围目标，提高了目标检测的精度和可靠性。
1.2 国内外研究现状
目标检测技术是计算机视觉领域中的重要研究方向，其核心任务包括目标的定位
和分类。传统目标检测方法主要采用水平框（bounding box）对目标进行标注。然而，
2
这种方法在面对形状复杂、方向多变的目标时，常常无法提供精确的检测结果。以舰
船目标为例，传统的水平框方法在应对船体的多变方向和复杂形状时显得力不从心，
导致检测精度降低[4]。
近年来，旋转框（rotated bounding box）方法逐渐成为研究热点。旋转框方法可以
更紧密地贴合目标边缘，从而提高检测精度和鲁棒性，如图 1-2，就很好显示出来了旋
转框的特点与优势。在国际研究领域，旋转框方法已经在多个应用场景中展现出其优
越性。例如，RFCOS（Rotated Feature Pyramid Network for Object Detection）等算法在
自然场景目标检测中取得了显著成果 [5]。这些算法利用旋转框技术，对目标进行更加
精细的标注，提升了检测效果。
(a) 水平框 (b) 旋转框

图 1-2 水平框与旋转框对比图
Figure 1-2 Horizontal Box vs. Rotated Box Comparison Diagram
然而，尽管旋转框方法在很多领域中取得了进展，其在 SAR（Synthetic Aperture

Radar，合成孔径雷达）图像中的应用仍然面临诸多挑战。SAR 图像由于其成像机制的
特殊性，具有分辨率高、成像全天候等优点，但也带来了噪声大、背景复杂等问题。
具体来说，在 SAR 图像中进行目标检测时，旋转框方法主要面临以下几个问题：
 特征提取不足：SAR 图像的特征提取较为困难，尤其是在复杂环境下，目标的特
征可能被背景噪声所淹没，导致检测效果不佳[6]。
 环境干扰：SAR 图像中常常包含大量的环境干扰，如海浪、地形等，这些干扰因
素会影响目标检测的准确性[6]。
 算法适配性：许多现有的旋转框检测算法主要针对光学图像设计，在应用到 SAR
图像时，性能可能会有所下降，需进行适配和优化[6]。
为了克服这些挑战，国内外研究者提出了多种改进方法。例如，针对特征提取不
足的问题，有研究者提出了基于深度学习的特征提取网络，通过多层次特征融合来增
强目标的可辨识性[7]；针对环境干扰问题，有研究者提出了基于背景抑制的检测算法，
通过抑制背景噪声来提高目标检测的精度[8]。
3
此外，国内的研究也在不断推动这一领域的发展。中国的研究机构和高校在 SAR
图像目标检测方面投入了大量资源，开发了多种具有自主知识产权的检测算法，并在
实际应用中取得了良好效果。例如，利用 SAR 图像对海上船舶进行监测和识别，在海
上交通管理、渔业监控等方面发挥了重要作用[9]。
1.3 研究内容与目标
本研究旨在开发一种针对 SAR 图像的旋转框目标检测模型，主要任务包括：

 使用 SAR 图像数据集，首先运行现有的水平框检测模型，获取基线结果。
 设计一个简单的旋转框模型，通过改进现有的旋转框算法，特别是在特征提取的
backbone 模块更换其网络，以提高舰船目标的识别和定位精度。
 进行两类对比实验：一是将新设计的旋转框模型与传统的水平框模型在视觉效果
上进行比较，以展示旋转框在处理复杂目标时的优势；二是与其他旋转框检测模
型进行性能比较，验证本模型的优势。
1.4 本文组织结构
本文主要包括五个部分，系统地介绍了目标检测技术的发展与应用，提出了改进
的检测方法，并通过实验验证其有效性。
首先，第一章为摘要，简要介绍了研究背景、主要内容和成果。本文聚焦于目标
检测技术的现状及其在复杂场景中的应用挑战，强调了旋转框方法在提高检测精度方
面的潜力。通过研究深度学习技术，提出了一种基于改进 RFCOS 的旋转框检测方法，
并验证了其在合成孔径雷达（SAR）图像中的应用效果。
第二章介绍了目标检测的理论基础与相关技术。内容涵盖神经元、卷积层、池化
层和激活函数的基本概念和原理，以及目标检测算法的理论和原理。探讨了模型在目
标检测中的应用。
第三章则详细讨论了基于深度学习的水平框检测方法。首先介绍了水平框检测的
基本概念和原理，然后重点描述了 YOLOv8、Caster-RCNN 和 Faster-RCNN 模型的应
用和实现。通过实验对比这些模型在不同数据集上的检测效果，分析了影响检测性能
的主要因素。
第四章提出了一种基于改进 FCOS 的旋转框检测方法，并深入研究了其在 SAR 图
像中的应用。内容包括旋转框检测的基本概念和优势，详细介绍了改进 FCOS 的具体
实现过程，包括旋转框的定义、特征提取网络的设计和损失函数的优化。通过实验验
证，展示了改进 FCOS 在不同数据集上的检测效果，特别是在 SAR 图像中的应用表现。
4
最后，第五章对全文进行了总结。回顾了各章节的主要内容和研究成果，强调了
旋转框方法在提高检测精度方面的重要性。总结了改进 FCOS 的检测效果及其在 SAR
图像中的应用优势，并提出了未来的研究方向，包括进一步优化旋转框检测算法和增
强特征提取能力。
通过这五部分的安排，本文系统地探讨了目标检测技术，提出了有效的改进方法，
并通过实验验证了其实用性，为后续研究提供了重要参考。
5
第2章理论基础与相关技术
机器学习和深度学习是人工智能领域的重要分支，它们在过去几十年中得到了迅
速发展，并在各个领域取得了显著的成果 [10]。机器学习是一种通过数据训练模型来进
行预测或分类的方法，而深度学习是机器学习的一个子领域，其灵感来自于人脑的结
构和功能。深度学习通过构建多层神经网络，可以自动提取数据的多层次特征，从而
在复杂任务中表现出色。
机器学习包括多种算法，如线性回归、支持向量机和决策树等，这些算法在结构
简单的问题中具有良好的性能。然而，当面对海量数据和复杂问题时，传统的机器学
习算法往往力不从心。此时，深度学习展现出其强大的优势 [11]。深度学习使用多层神
经网络，尤其是卷积神经网络（CNN）和递归神经网络（RNN），能够自动学习数据
的特征表示，极大地提升了模型的性能。
深度学习的发展离不开神经网络的基本单元——神经元。神经元通过接收输入信
号，进行加权和偏置计算，再通过激活函数输出结果。卷积层和池化层是卷积神经网
络中的关键组成部分，卷积层用于提取局部特征，而池化层则用于减少特征维度，保
留重要信息。激活函数如 ReLU、Sigmoid 和 Tanh 等，赋予神经网络非线性特性，使
其能够处理复杂数据。
总的来说，深度学习在图像识别、语音识别、自然语言处理等领域取得了突破性
的进展，其核心在于通过多层神经网络自动提取和学习数据特征，大大提高了任务的
完成质量。在目标检测领域，深度学习同样展现出色的性能，成为当前研究的热点。
2.1 卷积神经网络概述
卷积神经网络（Convolutional Neural Network, CNN）最早于上世纪 80 年代被提出，

但由于当时计算机计算能力的限制，CNN 的发展一度陷入停滞[12]。随着计算能力的提
升和大规模数据集的建立，卷积神经网络再次成为研究热点。特别是在 2012 年，
Krizhevsky 设计的 AlexNet 在 ImageNet 图片分类任务中以 15.3%的错误率获得第一名，
这一成就标志着卷积神经网络重新崛起，如图 2-1，这就是当年 AlexNet 的模型具体细
节[13]。
6
图 2-1 AlexNet 模型[13]

Figure 2-1 AlexNet Model
卷积神经网络是一种具有深度结构和卷积计算特点的前馈神经网络，其设计灵感
来源于生物的“感受野”机制[12]。CNN 由多个相互连接的“神经元”层组成，能够提
取数据中的不同层次特征[12]。CNN 首先对输入数据进行标准化处理，然后从二维图像
中自动提取特征（如纹理、颜色、形状等）和拓扑结构。通过反向传播算法，CNN 对
整个网络进行优化，调整网络参数以最小化误差，最终输出预测结果。
CNN 的基本组成部分包括输入层、卷积层、池化层、全连接层和输出层。其工作
原理如下：
2.1.1 神经元
神经元是神经网络的基本组成单元，其设计灵感来源于生物神经元的结构和功能，
如图 2-2，就生动展示了生物神经元与神经网络里的神经元之间的关系。一个神经元主
要由输入、权重、偏置和激活函数四个部分组成，通过模拟生物神经元的信息处理过
程，完成对输入数据的变换和处理。下面详细介绍神经元的工作原理。
图 2-2 生物神经元与人工神经网络示意图
Figure 2-2 Biological Neuron and Artificial Neural Network Diagram
首先，神经元接收来自上一层神经元的输入信号，每个输入信号都与一个权重
（Weight）相乘。权重是神经元在训练过程中学习到的参数，用于调整输入信号的强
7
度。权重决定了输入信号在最终输出中的影响程度。然后，这些加权的输入信号会进
行线性组合，即相加起来得到一个总和。
在进行线性组合之后，还会加入一个偏置（Bias）。偏置是一个附加的可训练参
数，它的作用是帮助模型在没有输入信号的情况下依然能进行调整。偏置类似于线性
方程中的截距，使得神经元的输出具有更大的灵活性。通过加上偏置，神经元可以更
好地拟合数据。如公式 2-1。
(2-1)
随后其输出就会到激活函数中去，进行对下一个神经元的激活。
2.1.2 卷积层
卷积层是卷积神经网络（CNN）的核心组件，其主要功能是从输入数据中提取局
部特征。卷积层通过卷积操作，可以有效捕捉图像中的边缘、纹理、形状等特征，为
后续的层提供丰富的特征表示[12]。
图 2-3 卷积操作示意图
Figure 2-3 Convolution Operation Diagram
卷积操作是卷积层的基本运算，它通过一个称为卷积核（或滤波器）的矩阵在输
入图像上滑动，进行点积计算并生成特征图（Feature Map）[12]。卷积核是一个小矩阵，
通常比输入图像小。卷积核中的每个元素都有一个权重，常见的卷积核尺寸有、
等。卷积核从输入图像的左上角开始，逐步在图像上滑动，每次移动一个步长
（Stride）。在每个位置，卷积核与对应的图像区域进行点积运算，将结果相加得到一
个单一值，形成特征图中的一个像素。如图 2-3，就展示一个卷积操作过程。
卷积操作的数学表达式可以表示为公式 2-2。
8
(2-2)
其中， x 是输入图像矩阵，是卷积核矩阵，是输出特征图矩阵，和分别
为卷积核的高度和宽度。
卷积层具有多个优势。首先是局部连接，每个神经元只与上一层的局部区域相连
接，减少了参数数量，提高了计算效率。其次是权重共享，同一卷积核在不同位置共
享权重，进一步减少了参数数量。最后是平移不变性，卷积操作具有平移不变性，能
够有效识别图像中的局部特征，无论特征出现在哪里。
通过卷积层的多次应用，卷积神经网络能够逐层提取输入图像的低级到高级特征，
为后续的分类或回归任务提供丰富的特征表示。
2.1.3 激活函数
激活函数是神经网络中的关键组件，其主要作用是为网络引入非线性能力，使得
神经网络能够处理复杂的模式和关系。没有激活函数，神经网络的每一层只执行线性
变换，即使网络有多层也只能表现为一个线性模型，无法解决非线性问题。
激活函数的基本原理是接收输入信号，通过一个非线性函数转换后输出结果。这
个转换过程能够捕捉输入数据中的复杂特征和模式，使网络具有更强的表达能力。激
活函数通常在每个神经元的输出端应用，非线性变换后的输出被传递到下一层神经元。
（1）ReLU 函数
ReLU（Rectified Linear Unit）函数是深度学习中最常用的激活函数之一 [12]。其主
要作用是引入非线性，使神经网络能够处理复杂的模式和关系。ReLU 函数因其计算
简单、效率高、且能有效缓解梯度消失问题，在现代深度神经网络中广泛应用。ReLU
函数的数学表达式为：
(2-3)
这个函数将输入值中的所有负值映射为 0，而正值保持不变。具体来说，当输入
为负数时，输出为 0；当输入为正数时，输出与输入相同。如图 2-4 就很好的表示了
各个输入之后的其输出的取值。
9
图 2-4 ReLU 函数图像

Figure 2-4 ReLU Function Graph
（2）Leaky ReLU
Leaky ReLU（Leaky Rectified Linear Unit）是对标准 ReLU 函数的一种改进，用
于解决 ReLU 函数可能导致的“神经元死亡”问题 [14]。在 ReLU 函数中，当输入值为
负时，输出恒为 0，可能导致一些神经元在训练过程中永远无法激活，从而对模型的
性能产生负面影响。Leaky ReLU 则允许负值有一个较小的斜率，从而减轻这一问题。
其数学表达式为：
(2-4)
其图 2-5 就展示出来一个完整的 Leaky ReLU 图像。Leaky ReLU 通过在负输入时引入
一个小的斜率，解决了 ReLU 的神经元死亡问题，增强了神经网络的训练稳定性和性
能。
图 2-5 Leaky ReLU 函数图像

Figure 2-5 Leaky ReLU Function Graph
10
（3）Sigmoid 函数
Sigmoid 函数是一种常用的激活函数，广泛应用于神经网络和机器学习模型中
[15]。它的形状像一个“S”，因此得名。Sigmoid 函数将输入映射到一个（0, 1）之间
的输出，是一种非线性函数，能够引入非线性特性到模型中，使其能够学习复杂的模
式和关系。其公式为：
(2-5)
如图 2-6，为 Sigmoid 的函数图像。Sigmoid 函数是一种将输入映射到 0 到 1 之间的
非线性激活函数，适用于概率解释和二分类问题。然而，其梯度消失问题和非零中心
化可能会影响深度神经网络的训练效率。
图 2-6 Sigmoid 函数图像

Figure 2-6 Sigmoid Function Graph
2.1.4 池化层
池化层（Pooling Layer）是卷积神经网络（CNN）中的一个关键组件，用于降低
特征图的空间维度，同时保留重要的特征信息 [12]。通过下采样操作，池化层能减少数
据的尺寸，从而降低计算复杂度，增强模型的鲁棒性，并减少过拟合现象。
池化层有几种常见类型，其中最大池化（ Max Pooling）和平均池化（Average
Pooling）是最常用的。最大池化在指定窗口内取最大值，保留了最显著的特征，具有
平移不变性。而平均池化则取窗口内所有值的平均值，更平滑特征图，保留整体信息。
使用池化层有很多优点。它可以有效地降维，减少特征图的空间维度和计算量，
同时通过减少模型参数，帮助防止过拟合。池化层还增强了模型对图像平移、旋转等
变换的鲁棒性，有助于提取更加稳定的特征。如图 2-7 就形象的讲解了一次池化操作。
其中 stride 为池化过程的步长。
11
图 2-7 池化操作示意图
Figure 2-7 Pooling Operation Diagram
在实际应用中，池化层被广泛应用于各种 CNN 架构，如 VGG 和 ResNet，用于图

像分类、目标检测等任务。通过减少特征图的尺寸和提取重要特征，池化层在提升模
型性能和效率方面发挥了重要作用。
2.2 目标检测技术概述
目标检测是计算机视觉中的一个核心任务，旨在识别图像或视频中的目标物体，
并确定它们的位置。这个任务不仅需要分类（识别目标物体的种类），还需要定位
（确定目标物体的边界框）。目标检测算法可以大致分为两类：基于区域的算法和单
阶段算法。
基于区域的算法，如 R-CNN 系列，首先生成候选区域，然后对这些区域进行分类
和回归。R-CNN、Fast R-CNN 和 Faster R-CNN 是这类算法的代表[16-18]。R-CNN 通过选
择性搜索生成候选区域，并使用卷积神经网络提取特征，尽管精度高，但计算复杂度
也很高。Fast R-CNN 通过共享卷积特征提高效率，而 Faster R-CNN 则引入区域建议网
络（RPN），直接在特征图上生成候选区域，大幅提升了检测速度。
单阶段算法则在一次前向传播中同时完成分类和定位。 YOLO（You Only Look
Once）和 SSD（Single Shot MultiBox Detector）是单阶段算法的典型代表 [19,20]。YOLO
将图像划分为网格，每个网格预测多个边界框和类别概率，速度极快，适合实时应用。
SSD 在不同尺度的特征图上进行分类和回归，处理多尺度问题，速度快且精度较高。
近年来，许多改进方法和新算法相继提出，如 YOLOv3、YOLOv4、RetinaNet 等，
通过优化网络结构和损失函数，不断提高目标检测的精度和速度 [21] 。此外，基于
12
Transformer 的目标检测算法如 DETR（Detection Transformer）也引起了广泛关注，展

示了强大的潜力[22]。
目标检测技术在各个领域都有广泛的应用前景，从自动驾驶到安防监控，再到智
能手机中的图像识别，随着技术的不断发展，目标检测的性能和效率将进一步提升。
2.2.1 目标检测的算法原理
目标检测算法可以分为几个主要步骤。首先，对输入图像进行预处理。这通常包
括将图像调整为适当的尺寸和格式，并进行像素值归一化，以提高模型训练的稳定性。
接下来，使用卷积神经网络（CNN）提取图像的高级特征。通过多个卷积层和池
化层，模型能够捕捉到图像中的物体信息。对于基于区域的算法，还需要生成候选区
域。R-CNN 使用选择性搜索生成候选区域，而 Faster R-CNN 则引入了区域建议网络
（RPN）直接在特征图上生成候选区域。
在候选区域生成后，对这些区域进行特征提取。算法如 Fast R-CNN 和 Faster R-
CNN 使用 RoI Pooling 将这些区域的特征转换为固定大小的特征向量。然后，对每个候
选区域或特征图中的每个点进行分类，确定其类别，并进行边界框回归，调整预测的
边界框位置和大小。
最后，应用非极大值抑制（NMS）来去除冗余的边界框，保留具有最高置信度的
边界框，提高检测精度[23]。经过这些步骤处理后，算法将输出最终的目标检测结果，
包括每个目标物体的类别、置信度和边界框位置。图 2-8，就展示一个大概的目标检测
过程。
图 2-8 目标检测过程示意图
Figure 2-8 Schematic Diagram of Object Detection Process
13
2.2.2 边界框表示
在传统的目标检测中，边界框通常是轴对齐的矩形框（ Axis-Aligned Bounding

Boxes, ABB）。这些边界框仅通过两个角点的坐标来定义，具体而言，就是通过左上
角和右下角的坐标来确定一个矩形区域。然而，轴对齐的矩形框在处理一些具有特殊
形状和方向的物体时可能不够精确，例如倾斜的文本、旋转的物体等。
为了解决这一问题，旋转框（Oriented Bounding Boxes, OBB）被引入。旋转框能
够提供更精确的物体定位信息，因为它们不仅包含物体的中心点坐标和宽高，还包含
一个旋转角度。这意味着旋转框可以更好地适应物体的实际方向和形状，从而提高检
测的准确性。通过这种方式，旋转框在处理具有多种方向和姿态的物体时表现得更加
出色，特别是在遥感图像处理、文字检测等应用领域中，旋转框的优势尤为明显。
2.3 旋转框目标检测技术
旋转框目标检测是一个较新的研究领域，它通过使用旋转边界框来解决传统边界
框在处理某些类型图像时的局限性。传统的目标检测方法通常使用水平的矩形边界框
来框定目标，但这种方式在处理倾斜、旋转或不规则形状的目标时会出现定位不准确
的问题。旋转框目标检测通过引入角度参数，允许边界框进行旋转，从而更准确地适
应目标的形状和方向，提高检测的精度和鲁棒性。
近年来，旋转框目标检测技术在遥感影像、医学图像分析、交通监控等多个领域
得到了广泛应用。然而，它们在处理合成孔径雷达（SAR）图像时仍面临特有的挑战。
SAR 图像具有高分辨率和复杂背景，且经常伴随斑点噪声，这些特性使得目标检测任
务更加困难。
现有的旋转框目标检测方法主要包括 Rotated RetinaNet、Rotated R-CNN 和 Rotated
YOLO 等。这些方法通过不同的网络结构和损失函数设计，实现了对旋转目标的有效
检测。例如，Rotated RetinaNet 通过引入旋转锚框和改进的回归损失函数，使得模型
能够更准确地预测目标的旋转角度。
未来的研究方向包括探索更高级的注意力机制、更高效的特征提取算法，以及结
合更多的数据增强方法，以进一步提升 SAR 图像目标检测的性能和实用性。
2.4 本章小结
在第二章中，我们深入探讨了机器学习和深度学习的基础理论及其在目标检测领
域的应用。此外，我们还特别关注了卷积神经网络（CNN）和目标检测技术，这些技
术构成了现代计算机视觉系统的核心。
首先，我们介绍了机器学习和深度学习的基本概念，强调了深度学习在处理复杂
14
数据和任务中的优势。通过深入讨论，我们解释了神经网络是如何通过模拟人脑的机
制来自动提取和学习数据特征的。
接着，我们专注于卷积神经网络的详细结构和功能。讨论了神经元的基本工作原
理，包括其如何接收输入、进行计算并通过激活函数输出结果。我们还详细描述了卷
积层、激活函数和池化层的作用及其在实际应用中的重要性。通过图示和实例，我们
解释了这些组件如何共同工作以提取和处理图像数据中的重要信息。
此外，本章还对目标检测技术进行了全面回顾。我们探讨了基于区域的算法和单
阶段算法，详细分析了它们的工作原理和优势。通过对比 R-CNN 系列和 YOLO、SSD
等算法，我们展示了如何通过这些高级技术实现图像中对象的快速和准确检测。
最后，本章介绍了目标检测中使用的边界框表示方法，包括传统的轴对齐框和更
高级的旋转框。这些技术对于提高检测精度和处理复杂图像场景非常关键，尤其是在
倾斜或旋转对象频繁出现的应用中。
15
第3章基于典型深度学习的水平框检测
3.1 典型的基于深度学习的目标检测算法
3.1.1 YOLOv8
YOLO 系列从最初的版本到现在的 YOLOv8，经历了多个重要的改进和演变

[24]
。YOLOv1 开创性地将目标检测视为一个单一的回归问题，通过一次性预测所有的
边界框和类别概率，大幅提升了检测速度。然而，这一版本在处理小目标和高密度目
标时存在精度不足的问题。
图 3-1 YOLOv8 模型[33]

Figure 3-1 YOLOv8 Model
YOLOv2（YOLO9000）在 YOLOv1 的基础上进行了显著改进，引入了锚框机制

和多尺度训练，使模型能够更好地处理不同大小的目标。YOLOv2 还通过批量归一化
加速了训练过程，提高了模型的稳定性。随着 YOLOv3 的发布，网络结构变得更加复
杂，引入了多尺度特征检测和更深层次的特征提取网络 Darknet-53，大幅提升了对小
16
目标和大目标的检测精度。
YOLOv4 结合了最新的研究成果，引入了 CSPNet 结构和 Mish 激活函数，并采用
了先进的数据增强技术，如 Mosaic 数据增强和 Self-Adversarial Training（SAT），显
著提升了模型的泛化能力。随后发布的 YOLOv5 进一步优化了代码实现和训练流程，
通过自动锚框机制和混合精度训练等策略，提升了检测速度和精度，并简化了部署流
程。
最近的 YOLOv6、YOLOv7 和 YOLOv8 版本继续在精度、速度和灵活性方面进行
优化。YOLOv8 集成了更深层次的网络结构、改进的特征金字塔网络（FPN）和无锚
框设计，使多尺度特征融合能力更强，如图 3-1 就展示了一个完整的 YOLOv8 模型的
结构。同时，引入的新损失函数使得训练过程更加高效，推理速度也得到了进一步提
升。通过这些持续的改进和创新，YOLO 系列在目标检测领域保持了领先地位，广泛
应用于自动驾驶、视频监控、工业自动化等多个领域。
3.1.2 Faster R-CNN
Faster R-CNN 是区域卷积神经网络（R-CNN）系列中的一个重要进步，显著提升

了目标检测的速度和精度 [18]。它的核心创新在于引入了区域建议网络（RPN），使得
候选区域的生成更加高效。传统的 R-CNN 和 Fast R-CNN 依赖于外部算法生成候选区
域，而 Faster R-CNN 则通过 RPN 在特征图上直接生成这些区域，大幅提高了处理速度。
图 3-2 Faster R-CNN 模型[18]

Figure 3-2 Faster R-CNN Model
Faster R-CNN 首先使用卷积神经网络（如 VGG16 或 ResNet）从输入图像中提取

特征图。这些特征图包含了图像的丰富信息，作为后续检测的基础。然后，RPN 在特
17
征图上滑动生成锚框（anchor boxes），预测每个锚框是否包含目标（目标性得分）以
及锚框的位置回归（边界框回归）。这一过程不仅快，还能生成高质量的候选区域。
如图 3-2 就展示一个完整的 Faster R-CNN 模型。
生成的候选区域经过非极大值抑制（NMS）去除冗余后，通过 RoI Pooling 层转换
为固定大小的特征图。RoI Pooling 将不同大小的候选区域统一处理，便于全连接层进
一步分类和回归。最后，这些特征图通过全连接层处理，输出每个候选区域的类别和
精确的边界框位置。
Faster R-CNN 的优点在于其高效性和高精度。通过 RPN 生成候选区域，不仅提升
了速度，还避免了使用外部区域生成算法的复杂性。此外，端到端的训练方式使得整
个检测流程可以联合优化，进一步提高了性能。由于其出色的表现，Faster R-CNN 被
广泛应用于自动驾驶、安防监控、医疗图像分析和工业自动化等多个领域。其在处理
复杂目标检测任务中的卓越能力，使其成为该领域的重要工具。
3.1.3 Cascaded R-CNN
Cascaded R-CNN 是一种改进的目标检测算法，旨在通过多级检测器级联来提高目

标检测的精度和鲁棒性 [25]。该方法的核心思想是逐步优化检测结果，每一级检测器在
前一级的基础上进一步精细化目标边界和分类结果。这种多级级联的方法有效地解决
了目标检测中的难度问题，尤其是在处理复杂背景和小目标时表现出色。
图 3-3 Cascaded R-CNN 模型[34]

Figure 3-3 Cascaded R-CNN Model
Cascaded R-CNN 的工作流程始于一个基础的目标检测器，这个初级检测器用于生

成初始的候选区域和预测。这些初始预测通常比较粗略，但足以捕捉到大部分目标。
然后，这些初步的检测结果被传递到下一级检测器进行进一步的处理。每一级检测器
都基于前一级的输出进行更精细的调整，从而逐步提升检测的精度和定位的准确性。
在每一个级联阶段，Cascaded R-CNN 应用了不同的回归和分类策略。初级检测器
18
负责生成粗略的边界框，而后续的检测器则逐级优化这些边界框，使之更加接近目标
的真实位置。同时，通过在每一级应用更严格的分类标准，Cascaded R-CNN 能够有效
减少误检，提高整体的检测性能。这种逐级优化的方法特别适用于检测那些在初级检
测器中难以准确识别的目标，如小目标或背景复杂的目标。如图 3-3 就展示了
Cascaded R-CNN 的模型细节。
Cascaded R-CNN 的优势在于其高效的多级检测机制，使得模型能够处理各种复杂
场景并获得高精度的检测结果。这种逐步优化的方法不仅提升了模型的精度，还显著
减少了误检和漏检的情况。由于其出色的性能，Cascaded R-CNN 在自动驾驶、安防监
控、医疗图像分析等领域得到了广泛应用。其在复杂环境下的卓越表现，使其成为目
标检测任务中的重要工具。
3.2 数据集介绍
3.2.1 SAR-Ship-Dataset
图 3-4 SAR-Ship-Dataset 的示例

Figure 3-4 Example of SAR-Ship-Dataset
该数据集主要由我国国产高分三号 SAR 数据和 Sentinel-1 SAR 数据构成，共包含

210 景 SAR 图像，其中包括 102 景高分三号和 108 景 Sentinel-1 SAR 图像[26]。这些图像
被用来构建一个高分辨率 SAR 船舶目标的深度学习样本库，目前包含 43,819 个船舶切
片。高分三号 SAR 的成像模式包括 Strip-Map (UFS) 、 Fine Strip-Map 1 (FSI) 、 Full
Polarization 1 (QPSI)、Full Polarization 2 (QPSII)和 Fine Strip-Map 2 (FSII)，分辨率从
19
3m 到 25m 不等。Sentinel-1 的成像模式则包括条带模式（S3 和 S6）和宽幅成像模式，

专门用于海面监视和船舶检测。如图 3-4，就是其中的一张图片。这是一个用于水平框
的训练的数据集。
3.3 模型评价指标
在机器学习和深度学习中，评价指标用于衡量模型的性能。对于分类任务，混淆
矩阵是一个非常重要的工具，它展示了模型的预测结果和实际结果之间的对应关系，
包括真正例（ True Positive, TP ）、假正例（ False Positive, FP ）、假负例（ False
Negative, FN）和真负例（True Negative, TN）这四个部分 [27] 。其中表格 3-1 就展示混
淆矩阵
表 3-1 混淆矩阵
Table 3-1 Confusion Matrix
预测类别
Positive Negative
True TP TN
实际类别 False FP FN
通过混淆矩阵，我们可以计算出多个关键的评价指标。准确率（Accuracy）是模
型预测正确的样本数占总样本数的比例，公式为：
(3-1)
精确率（Precision）衡量的是模型预测为正类的样本中实际为正类的比例，公式
为：
(3-2)
召回率（Recall）则是实际为正类的样本中被模型正确预测为正类的比例，公式为：
(3-3)
F1 分数（F1 Score）是精确率和召回率的调和平均数，适用于需要平衡精确率和
召回率的场景，公式为：
(3-4)
在目标检测任务中，平均精度（Average Precision, AP）和均值平均精度（Mean
Average Precision, mAP）是常用的评价指标[28]。AP 衡量的是模型在某一类别上的平均
20
检测精度，公式为：
(3-5)
mAP 则是多个类别的 AP 的平均值，用于衡量模型在多类别检测任务中的整体性
能，公式为：
(3-6)
在本研究中，由于只有一类船只的检测任务，所以 mAP 值与 AP 相同。
图 3-5 IOU 计算的过程示意图

Figure 3-5 IOU Calculation Process Diagram
此外，IOU（Intersection over Union）是目标检测任务中常用的评价指标，用于衡

量预测边界框与实际边界框之间的重叠程度。它是一个重要的指标，用于评估检测模
型的精度和性能，如图 3-5 就形象的展示了它的计算过程。其公式为：
(3-7)
具体来说，IOU 是预测边界框与实际边界框的交集面积与它们并集面积的比值。
交集面积是两个边界框重叠部分的面积，并集面积是两个边界框的总面积（去掉重叠
部分）。通过 IOU 指标，我们能够有效地评估目标检测模型在实际任务中的表现，确
保模型不仅能找到目标，还能准确地定位目标的位置。
21
3.4 实验结果与分析
图 3-6 模型 mAP 值对比数状图

Figure 3-6 Model mAP Value Comparison Bar Chart
在本实验中，我训练了三个基于水平框的目标检测模型，分别是 Cascade-
RCNN、Faster-RCNN 和 YOLOv8。训练的模型及其参数如下：
 Cascade-RCNN：cascade-rcnn_r101_fpn_20e_coco
 Faster-RCNN：faster-rcnn_r50_fpn_1x_coco
 YOLOv8：yolov8_l_syncbn_fast_8xb16-500e_ship
图 3-7 模型时间对比树状图
Figure 3-7 Model Time Comparison Bar Chart
训练完成后，我对各个模型的性能进行了评估，主要通过展示效果图和计算各模
型的 mAP（Mean Average Precision）值来比较它们的表现。如图 3-6，以下是每个模
型在不同评价标准下的 mAP 值。
22
此外，图 3-7 也显示出来其每个模型的运行一张图片的所需时间。
原图 Cascade-RCNN Faster-RCNN YOLOv8

图 3-8 各模型的效果展示图
Figure 3-8 Visualization of Results for Each Model
从实验结果可以看出， Cascade-RCNN 在各项指标上均表现最优。其总体
mAP（0.584）显著高于 Faster-RCNN（0.537）和 YOLOv8（0.432）。在较低 IOU
阈值（0.50）和较高 IOU 阈值（0.75）下，Cascade-RCNN 的 mAP 分别为 0.789 和
0.670，显示了其在不同精度要求下的稳定性能。
Faster-RCNN 紧随其后，表现次优。其总体 mAP 为 0.537，比 YOLOv8 高出约
10%。在各个尺寸目标检测中（小、中、大），Faster-RCNN 的表现也较为均衡，尤
其在中等尺寸目标（COCO/bbox_mAP_m: 0.726）上的检测效果优于 YOLOv8。
YOLOv8 的 mAP 值最低，但在速度方面具有优势。YOLOv8 的每张图片处理时
间仅为 0.030 秒，而 Faster-RCNN 和 Cascade-RCNN 分别需要 0.065 秒和 0.095 秒。
尽管在准确性上略逊一筹，YOLOv8 仍然是需要实时处理应用场景的良好选择。
总体来看，Cascade-RCNN 在检测精度上最为出色，适用于需要高准确性的任务。
Faster-RCNN 在精度和速度上取得了良好的平衡，适用于一般的检测任务。而
23
YOLOv8 则在速度上表现出色，更适用于实时检测场景。
通过这些实验结果，我们可以清楚地看到不同模型在精度和速度上的差异，从而
为实际应用中选择合适的模型提供参考。最后各个模型实际效果图会在图 3-8 中展示。
3.5 本章小结
在本章中，我们深入探讨了基于典型深度学习的水平框检测技术。我们分别对
YOLO 系列、Faster R-CNN 和 Cascaded R-CNN 这三种主流目标检测算法进行了详细的
介绍，并分析了它们的发展演变以及各自的技术特点。
首先，我们回顾了 YOLO 系列从 YOLOv1 到 YOLOv8 的发展历程。YOLO 算法以
其高速的检测能力而闻名，特别是最新的 YOLOv8，它通过更深层次的网络结构和改
进的特征金字塔网络，实现了对多尺度特征的强大融合能力，显著提高了处理速度和
精度。
接着，我们探讨了 Faster R-CNN 算法，它通过引入区域建议网络（RPN）显著提
高了候选区域的生成效率，使得目标检测不仅更快，还更精确。Faster R-CNN 通过端
到端的训练方式优化了整个检测流程，使其在多个领域得到广泛应用。
此外，我们分析了 Cascaded R-CNN 的多级检测机制。这种方法通过级联多个检测
器，逐级优化检测结果，特别适合处理复杂背景和小目标的场景，提供了更高的精度
和鲁棒性。
我们还介绍了用于训练这些模型的 SAR-Ship-Dataset 数据集，并讨论了几种主要
的模型评价指标，如混淆矩阵、平均精度（AP）、均值平均精度（mAP）和 IOU。这
些指标帮助我们更全面地评估模型性能。
通过实验结果分析，我们比较了 Cascade-RCNN、Faster-RCNN 和 YOLOv8 在不同
评价标准下的性能。Cascade-RCNN 在精度方面表现最佳，而 YOLOv8 在速度方面具
有优势。这些发现为选择适合特定应用场景的目标检测模型提供了重要依据。
总之，本章不仅详细介绍了先进的目标检测技术，还通过对比分析提供了它们在
实际应用中的潜在优势和局限性。这些深入的分析和实验结果对于理解和选择最适合
的目标检测方案具有重要意义。
第4章基于改进 RFCOS 的旋转框检测
24
4.1 FCOS 介绍
FCOS（Fully Convolutional One-Stage Object Detection）是一个由中科院自动化所

提出的全卷积一阶段目标检测模型 [29]。它摒弃了传统的锚框机制，直接在特征图上进
行密集预测，简化了检测流程，提高了检测效率和准确性。 FCOS 使用卷积神经网络
（如 ResNet）作为 backbone 提取特征，并通过 FPN（Feature Pyramid Network）融
合多尺度特征，从而在不同尺度上进行目标检测。每个特征图位置直接进行目标类别
分类和边界框回归，并增加了中心度分支以提高预测准确性。FCOS 的无锚框设计不
仅简化了超参数调整，还减少了计算和内存开销，使得训练和推理速度较快。实验表
明，FCOS 在检测精度和速度上均表现出色，是一种简洁高效的目标检测解决方案，
适用于各种实际应用。下图则是 FCOS 的网络模型。
图 4-1 FCOS 模型[29]

Figure 4-1 FCOS Model
4.2 FCOS 网络解析
它的核心思想是通过全卷积网络架构，简化检测流程，提高检测效率和精度。
FCOS 使用卷积神经网络（例如 ResNet）作为 backbone 来提取图像的特征。这个部
分与许多其他目标检测模型类似，目的是提取丰富的视觉特征，为后续的检测任务提
供基础。
为了处理不同尺度的目标，FCOS 引入了特征金字塔网络（FPN） [30] 。FPN 将
backbone 提取的特征进行多尺度融合，生成不同分辨率的特征图，使模型能够在不同
尺度上检测目标。具体来说，FPN 将高层语义特征上采样并与低层细节特征融合，从
而生成一系列具有不同分辨率的特征图。
25
在每个特征图的每个位置，FCOS 直接进行目标的类别分类和边界框回归。分类
分支预测每个位置的目标类别概率，如果该位置没有目标，则输出为背景类别；回归
分支预测该位置到目标边界的四个偏移量，用于生成最终的边界框。为了进一步提升
检测精度，FCOS 引入了中心度分支，预测每个位置的中心度得分，抑制远离目标中
心的低质量预测。
FCOS 使用多任务损失函数来训练网络，包括分类损失、回归损失和中心度损失。
在推理阶段，FCOS 对每个特征图的位置进行预测，生成候选边界框和对应的类别概
率，并使用非极大值抑制（NMS）技术去除冗余的边界框，只保留得分最高的边界框
作为最终的检测结果。
总的来说，FCOS 通过无锚框设计和全卷积架构，简化了检测流程，减少了计算
和内存开销。其多尺度特征融合和中心度分支有效提升了检测精度，使得 FCOS 在多
个基准数据集上表现出色，是一种简洁高效的目标检测方法。
4.2.1 骨干网络 backbone
在 FCOS （ Fully Convolutional One-Stage Object Detection ）模型中，骨干网络

（Backbone Network）是用于特征提取的关键组件。常用的骨干网络包括 ResNet 系列
网络，如 ResNet-50 和 ResNet-101。ResNet（Residual Network）是由何恺明等人在
2015 年提出的一种深度卷积神经网络，因其在 ImageNet 比赛中取得的优异成绩而广
受关注[31]。ResNet 的核心思想是通过引入残差模块（Residual Block），解决深层网络
中的梯度消失和梯度爆炸问题，使得训练更深层次的网络成为可能。
ResNet 的主要特点之一是残差模块，它通过跳跃连接（skip connection）将输入直
接与输出相加，缓解了深层网络的退化问题。这个结构使得 ResNet 能够训练非常深
的网络，如 ResNet-50 和 ResNet-101，分别有 50 层和 101 层。深度网络有助于捕捉
更多的高级特征，提高模型的表现力。此外，ResNet 通过多个卷积和池化操作，在不
同层次提取特征，生成不同分辨率的特征图，这些特征图在后续的特征金字塔网络
（FPN）中进一步融合，用于多尺度目标检测。
在 FCOS 中，ResNet 作为骨干网络负责从输入图像中提取特征。输入图像首先经
过若干卷积层和池化层，生成低级特征图。接着，图像继续通过残差模块，提取中间
层次的特征，这些特征包含了图像的边缘、纹理等信息。最后，图像通过更深的残差
模块，提取高级语义特征，这些特征包含了对象的形状、类别等高级信息。 ResNet 提
取的多层次特征图在 FPN 中进行多尺度融合，生成不同分辨率的特征图，每个分辨率
的特征图都用于后续的目标分类和边界框回归。
作为 FCOS 的骨干网络，ResNet 提供了强大的特征提取能力。通过多层次特征提
26
取和残差模块的应用，ResNet 能够有效捕捉图像的细节和高级语义信息，为 FCOS 的

目标检测任务提供坚实的基础。其在深度学习和计算机视觉中的广泛应用，使得
ResNet 成为许多目标检测模型的首选骨干网络。
4.2.2 Neck 特征金字塔
在 FCOS（Fully Convolutional One-Stage Object Detection）模型中，特征金字塔

网络（Feature Pyramid Network, FPN）是关键组件之一。FPN 负责融合来自骨干网络
（如 ResNet）的多层次特征，使得模型能够处理不同尺度的目标。这个过程在目标检
测任务中尤为重要，因为目标在图像中的尺寸可能有很大差异。
特征金字塔网络通过自顶向下和横向连接的结构，将高层语义特征与低层细节特
征结合起来。具体来说，首先从骨干网络的最高层特征图开始，通过上采样将高层特
征逐步传递到低层。每一步上采样后的特征图都会与相应的低层特征图进行横向连接。
这种方式结合了高层次的语义信息和低层次的空间细节，使得最终生成的特征图既具
有丰富的语义信息，又保留了较高的空间分辨率。
通过这种多尺度特征融合，FPN 生成了一系列具有不同分辨率的特征图。这些特
征图用于在不同尺度上进行目标检测。具体而言，高分辨率的特征图适用于检测小目
标，而低分辨率的特征图则用于检测大目标。这种多尺度特征表示增强了模型的鲁棒
性和检测能力，能够在复杂场景中更准确地识别和定位目标。
在 FCOS 中，FPN 的作用不仅限于特征融合。FPN 还提供了一个统一的特征表示，
简化了后续的目标分类和边界框回归过程。通过在多个尺度上进行预测， FCOS 能够
同时处理不同大小的目标，提高了模型的总体性能和检测精度。 FPN 的设计使得
FCOS 在保持高效计算的同时，具备了处理多尺度目标的能力，这也是 FCOS 成为一
种有效目标检测方法的重要原因之一。
总之，特征金字塔网络在 FCOS 模型中扮演着至关重要的角色，通过多层次特征
融合和多尺度预测，显著提升了模型的检测能力和鲁棒性。FPN 结合了高层语义信息
和低层空间细节，使 FCOS 能够高效、准确地进行目标检测，适用于各种实际应用场
景。
4.2.3 FCOS Head
在 FCOS（Fully Convolutional One-Stage Object Detection）模型中，head 部分负

责具体的目标检测任务，包括目标分类和边界框回归。这个部分直接作用于由骨干网
络和特征金字塔网络（FPN）提取和融合的特征图，是模型进行最终预测的关键组件。
FCOS 的 head 主要由三个分支组成：分类分支、边界框回归分支和中心度分支。
27
分类分支负责在每个特征图位置上预测目标的类别。这部分网络由多个卷积层构成，
最后通过一个 softmax 层输出每个类别的概率。与传统检测方法不同，FCOS 不使用
预定义的锚框，而是直接在特征图上进行密集预测，这简化了模型的设计和训练过程。
边界框回归分支负责预测目标的边界框。在每个特征图位置上，回归分支预测到
目标边界的四个偏移量（左、上、右、下）。这些偏移量用于确定每个目标的精确位
置。回归分支同样由多个卷积层构成，直接输出回归结果。这种直接回归的方法避免
了复杂的锚框设计，使得模型更加简洁高效。
中心度分支是 FCOS 的一个创新点，用于提高预测的准确性。它预测每个特征图
位置的中心度得分，衡量该位置距离目标中心的远近。中心度得分用于抑制远离目标
中心的低质量预测，从而提升最终的检测精度。中心度分支通过一个 sigmoid 层输出
得分，与分类分支和回归分支的结果结合，作为最终的检测结果。
总体来看，FCOS 的 head 部分通过分类分支、边界框回归分支和中心度分支协同
工作，直接在特征图上进行目标检测。这个设计不仅简化了模型结构，还提高了检测
效率和精度，使 FCOS 在实际应用中表现出色。通过无锚框的直接预测和中心度得分
的引入，FCOS 能够在复杂的目标检测任务中提供可靠的性能。
4.2.4 RFCOS 介绍
RFCOS（Rotated Fully Convolutional One-Stage Object Detection）是 FCOS（Fully

Convolutional One-Stage Object Detection）模型的改进版本，专门用于处理旋转目标检
测任务。它保留了 FCOS 的无锚框设计和全卷积架构，同时引入了旋转框检测机制，
以更好地应对具有不同方向和角度的目标。RFCOS 增加了对目标旋转角度的预测，使
得模型能够更准确地定位旋转的目标，特别是在具有复杂姿态的场景中表现优异。
与 FCOS 仅预测水平边界框不同，RFCOS 的回归分支不仅预测目标的边界框，
还预测旋转角度。这一改进允许模型在处理旋转目标时，能够提供更精确的位置信息。
通过旋转框检测机制，RFCOS 提高了模型对目标旋转不变性的鲁棒性，无论目标处于
何种角度，模型都能有效检测并分类。
相比于原本的 FCOS，RFCOS 能够在复杂场景中提供更准确的检测结果。FCOS
适用于常规的目标检测任务，目标多为水平放置，而 RFCOS 则适用于需要检测旋转
目标的复杂场景，如遥感影像中的船只、飞机等。通过将 FCOS 的水平边界框预测扩
展为旋转框预测，RFCOS 在处理旋转目标检测任务时表现出显著的性能提升。
总的来说，RFCOS 通过引入旋转框检测机制，对 FCOS 进行了有效的扩展和改
进。它不仅保留了 FCOS 的无锚框设计和全卷积架构，还增强了模型处理旋转目标的
能力。RFCOS 能够更准确地检测和定位具有不同方向和角度的目标，在复杂场景中表
28
现出色，为目标检测领域提供了新的方法和思路。
4.3 数据集介绍
图 4-2 RSDD-SAR 数据集示例

Figure 4-2 Example of RSDD-SAR
本次实验所用到的数据集是 RSDD-SAR 数据集，它是一个旋转框的数据集
[32]
。RSDD-SAR（Rotated Ship Detection Dataset in SAR Images）是一个专门用于旋转
船舶检测的 SAR 图像数据集，包含来自高分三号和 TerraSAR-X 卫星的多源、多观
测模式、多极化模式和多分辨率的 SAR 数据。该数据集包括 84 场景的 GF-3 数据切
片、41 场景的 TerraSAR-X 数据切片和 2 场景的未裁剪大图像，总计约 7,000 个切片
和 10,263 个船舶实例。RSDD-SAR 数据集提供了丰富的高分辨率样本，支持旋转框
标注，适用于复杂的目标检测任务。该数据集公开可用，用户可以通过百度云链接下
载数据。如图 4-2 就是该数据集的一个示例，与前面水平框的数据集还是很类似的。
4.4 模型改进前后对比
在本次研究中，我们对 RFCOS 模型进行了改进，主要是将骨干网络从原本的

ResNet-50（R50）更换为 ResNet-101（R101）。这一更改旨在提高模型的特征提取能
力，从而提升整体检测性能。
29
原图 R50 R101
图 4-3 改进前后模型效果图
Figure 4-3 Before and After Model Improvement Effect Diagram
改进前，FCOS 使用 ResNet-50 作为骨干网络。ResNet-50 是一种较为经典的卷积

神经网络，由 50 层深度卷积构成。它能够在较低计算成本下提取丰富的图像特征，
并在许多计算机视觉任务中表现出色。然而，随着检测任务的复杂度增加，ResNet-50
的特征提取能力可能不足以捕捉所有重要细节。
在使用 ResNet-50 作为骨干网络的情况下，模型在 RSDD-SAR 数据集上的
mAP（Mean Average Precision）为 67.8%。这一结果表明模型具有较好的检测性能，
但仍有提升空间。其中图 4-3 就是 RFCOS 的效果对比图
为进一步提升模型性能，我们将 FCOS 的骨干网络升级为 ResNet-101。ResNet-
101 在架构上与 ResNet-50 类似，但深度增加到 101 层。这种更深的网络结构能够捕
捉到更加细致和高层次的特征信息，有助于提高目标检测的准确性。
在更换为 ResNet-101 之后，改进后的 FCOS 模型在同一数据集上的 mAP 提升到
了 69.4%。这一提升表明，通过使用更深的骨干网络，模型在特征提取方面表现得更
好，能够更准确地识别和定位目标。其中表 4-1 直观的表示模型前后的性能对比。
综上所述，通过对 RFCOS 模型的改进，本研究取得了显著的成果，为提高 SAR
图像中舰船目标检测的性能和效率提供了有益的探索和实践。
30
表 4-1 模型改进前后性能对比
Table 4-1 Performance Comparison Before and After Model Improvement
方法骨干网络 recall mAP
RFCOS ResNet-50 0.715 67.8%
RFCOS ResNet-101 0.756 69.4%
4.5 结果分析
在本次实验中，我们对 RFCOS 模型进行了改进，将骨干网络从 ResNet-50 更换

为 ResNet-101，以提升模型的特征提取能力和整体检测性能。实验结果显示，改进后
的模型在 RSDD-SAR 数据集上的 mAP 从 67.8% 提升到了 69.4%。这一提升表明，
通过使用更深的骨干网络，模型在特征提取方面表现得更加优异，能够更准确地识别
和定位目标。
更换骨干网络的主要目的是增强特征提取的深度和细致度。 ResNet-101 相较于
ResNet-50 具有更多的卷积层，能够捕捉到更加复杂和高层次的特征信息。这种改进带
来了性能的提升，特别是在复杂场景中的检测精度得到了显著提高。更深的骨干网络
使得模型能够更好地捕捉图像中的细节和语义信息，从而在检测旋转船舶目标时更加
准确。
从 67.8% 到 69.4% 的 mAP 提升虽然幅度不大，但对于目标检测任务，尤其是复
杂的旋转目标检测任务而言，这是一个显著的改进。这表明，改进后的模型在保持较
高计算效率的同时，检测准确性得到了有效提升。ResNet-101 提供了更丰富的特征表
示，使得模型在复杂场景中的表现更加可靠和稳定。
这一改进对于实际应用具有重要意义。在 SAR 图像中的目标检测任务中，通常
会涉及各种复杂场景和不同角度的目标，通过提升模型的特征提取能力，可以显著提
高检测的准确性和稳定性。尤其在船舶检测等需要高精度和高可靠性的应用中，改进
后的 RFCOS 模型能够提供更优的性能，满足实际应用需求。
综上所述，通过将 RFCOS 的骨干网络从 ResNet-50 升级到 ResNet-101，我们显
著提升了模型在 RSDD-SAR 数据集上的检测性能。改进后的模型更好地处理了旋转
目标，提供了更高的检测准确性和可靠性，为复杂场景下的目标检测任务提供了有力
支持。这一研究成果为进一步提升 SAR 图像目标检测的性能和应用广度奠定了基础。
4.6 本章小结
本章详细介绍了基于改进 RFCOS 模型的旋转框检测方法。首先，介绍了 FCOS
31
模型，重点阐述了其无锚框设计、多尺度特征融合以及中心度分支的创新点，使其在
检测效率和准确性方面表现出色。在分析了 FCOS 的核心组件后，包括骨干网络
（Backbone）、特征金字塔网络（ Neck）和检测头（Head），我们进一步介绍了
RFCOS 模型的改进之处。RFCOS 保留了 FCOS 的优点，同时引入了旋转框检测机制，
使其能够更准确地处理具有不同方向和角度的目标。通过对目标旋转角度的预测，
RFCOS 提高了模型的鲁棒性和检测精度，尤其在复杂场景中表现优异。
随后，我们介绍了所使用的数据集 RSDD-SAR，该数据集专门用于旋转船舶检测，
包含多源、多观测模式和多分辨率的 SAR 数据，提供了丰富的高分辨率样本，适用
于复杂的目标检测任务。
接着，我们进行了模型改进实验，将 RFCOS 的骨干网络从 ResNet-50 更换为
ResNet-101。实验结果表明，这一改进显著提升了模型的特征提取能力和整体检测性
能，mAP 从 67.8% 提升至 69.4%。这一结果验证了更深层次的卷积神经网络在特征
提取和目标检测任务中的优势。
通过本章的研究和实验，我们验证了 RFCOS 模型在旋转目标检测任务中的有效
性，并展示了通过改进骨干网络提升检测性能的可行性。这些成果为进一步提高 SAR
图像目标检测的精度和应用广度提供了重要参考。
32
第5章总结与展望
5.1 总结
本研究围绕 SAR 图像中的目标检测任务，提出了一种基于改进 RFCOS 模型的旋

转框检测方法。通过详细的实验设计和验证，展示了该方法在提升目标检测精度和鲁
棒性方面的有效性。具体来说，本研究取得了以下主要成果：
(1) 数据集应用：
本研究使用了 RSDD-SAR 数据集，该数据集包含来自高分三号和 TerraSAR-X 卫
星的多源、多观测模式、多极化模式和多分辨率的 SAR 数据。通过这一数据集，验证
了改进的 RFCOS 模型在旋转框检测任务中的有效性。除此之外，本研究还使用了
SAR-Ship-Dataset 作为水平框数据集，并在三个模型上进行了性能对比，分别是
YOLOv8、Faster R-CNN 和 Cascade R-CNN。
(2) 三种水平框模型的对比：
我们对 Cascade R-CNN、Faster R-CNN 和 YOLOv8 在不同评价标准下的性能进行
了比较。结果显示，Cascade R-CNN 在精度方面表现最佳，而 YOLOv8 在检测速度上
具有显著优势。这些发现为在特定应用场景中选择合适的目标检测模型提供了重要参
考依据。
(3) FCOS 模型的引入与分析：
详细介绍了 FCOS 模型的设计，包括其无锚框设计、多尺度特征融合以及中心度
分支等关键创新点。通过对 FCOS 模型的深入分析，展示了其在目标检测任务中的高
效性和准确性。
(4) RFCOS 模型的改进与应用：
通过将 FCOS 模型改进为 RFCOS 模型，增加了对目标旋转角度的预测，从而提升
了对旋转目标的检测精度。实验结果表明，RFCOS 模型在复杂场景中表现出色，特别
是在检测具有不同方向和角度的目标时。
(5) 骨干网络的优化：
通过将 RFCOS 模型的骨干网络从 ResNet-50 更换为 ResNet-101，显著提升了模型
的特征提取能力和整体检测性能。实验结果显示，改进后的模型在 RSDD-SAR 数据集
上的 mAP 从 67.8%提升至 69.4%。
(6) 实验验证与结果分析：
33
通过系统的实验验证，展示了改进后的 RFCOS 模型在不同场景中的表现。实验结

果证明，使用更深层次的卷积神经网络能够有效提升特征提取和目标检测的准确性，
特别是在处理复杂的旋转目标时。
综上所述，本研究通过对 RFCOS 模型的改进，显著提升了 SAR 图像中的目标检
测性能，为复杂目标检测任务提供了一种高效可靠的解决方案。
5.2 展望
尽管本研究取得了一定的成果，但仍有许多方面值得进一步探索和优化。未来的
研究方向可以集中在以下几个方面：
(1) 进一步优化模型架构：
可以尝试引入其他先进的神经网络架构，如 Transformer 等，以进一步提升模型的
特征提取能力和检测精度。同时，可以研究多任务学习和自监督学习等方法，增强模
型的鲁棒性和泛化能力。
(2) 数据增强与多源数据融合：
针对 SAR 图像中复杂的背景和噪声问题，可以尝试更多的数据增强技术，如
Mosaic 数据增强、Mixup 等。同时，可以考虑融合多源数据，如光学图像与 SAR 图像
的联合检测，以提高目标检测的准确性。
(3) 实时检测与边缘计算：
针对实际应用中的实时检测需求，可以优化模型的推理速度，并研究基于边缘计
算的目标检测方案。通过在边缘设备上部署轻量级模型，实现高效的实时目标检测。
(4) 模型的适应性与迁移学习：
为了增强模型在不同应用场景中的适应性，可以研究迁移学习和领域自适应技术。
通过在不同领域和数据集上的迁移和微调，使模型能够在更多实际应用中发挥作用。
(5) 探索更多应用场景：
除了海上船舶检测，旋转框检测方法还可以应用于其他领域，如遥感影像中的建
筑物检测、文本检测等。未来可以针对不同应用场景，开发和优化专门的检测模型。
总之，本研究为 SAR 图像中的目标检测任务提供了一种新的解决方案，并取得了
显著的成果。未来，我们将继续深入研究，进一步优化和扩展模型的应用范围，为更
多实际场景中的目标检测任务提供高效、准确的解决方案。
34
参考文献
[1] Chaturvedi, S. Study of synthetic aperture radar and automatic identification system for
ship target detection[J]. Journal of Ocean Engineering and Science, 2019,4(2):176-182.
[2] Ivanov, A. V. Resolving power of a side-looking radar with synthetic aperture in
observing the surface of the sea[J]. Journal of Ocean Engineering, 1978. 21(12):1219-
1227
[3] Ma, J., Zhang, X. Method for Uncooled Infrared Image Processing[J]. Applied
Mechanics and Materials, 2013, 427-429: 1948-1951.
[4] Zhang, L., Wang, H., Wang, L., Pan, C., Liu, Q., Wang, X. Constraint Loss for Rotated
Object Detection in Remote Sensing Images[J]. Remote Sensing, 2021, 13(21): 4291.
[5] Li, Z., Hou, B., Wu, Z., Jiao, L., Ren, B., Yang, C. FCOSR: A Simple Anchor-free
Rotated Detector for Aerial Object Detection[J]. Remote Sensing, 2021, 15(23): 5499.
[6] Huang, Q., Zhu, W., Li, Y., Zhu, B., Gao, T., Wang, P. Survey of Target Detection
Algorithms in SAR Images[C]. IEEE Xplore, 2021:1756-1765.
[7] Koo, J., Seo, J., Jeon, S., Choe, J., Jeon, T. RBox-CNN: Rotated bounding box based
CNN for ship detection in remote sensing image[C]. Proceedings of the 2018 ACM
International Conference on Multimedia Retrieval (ICMR), 2018.
[8] Wu, Q., Xiang, W., Tang, R., Zhu, J. Bounding Box Projection for Regression
Uncertainty in Oriented Object Detection[J]. IEEE Access, 2021, 9: 58768-58779.
[9] Amores, P. J., González Bonilla, M. J., Mata-Moya, D., Martin-de-Nicolas, J., Palma-
Vazquez, A. Demonstrator of maritime SAR applications: Automatic ship detection
results[C]. IEEE Xplore, 2012:3732-3735.
[10] LeCun, Y., Bengio, Y., Hinton, G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[11] Jordan, M. I., Mitchell, T. M. Machine learning: Trends, perspectives, and prospects[J].
Science, 2015, 349(6245): 255-260.
[12] Sakib, S., Ahmed, N., Kabir, A., & Ahmed, H. An Overview of Convolutional Neural
Network: Its Architecture and Applications[J]. Preprints, 2018, 2018120330: 1-12.
[13] Krizhevsky, A., Sutskever, I., & Hinton, G. E. ImageNet Classification with Deep
Convolutional Neural Networks[J]. Advances in Neural Information Processing Systems,
2012, 25: 1097-1105.
[14] Xu, J., Li, Z., Du, B., Zhang, M., & Liu, J. Reluplex made more practical: Leaky
ReLU[J]. 2020 IEEE Symposium on Security and Privacy (SP), 2020: 122-135.
35
[15] Renas, M. R. Neural networks and Sigmoid Activation Function in Multi-Layer

Networks[J]. Qubahan Academic Journal, 2020, 1(2): 11-16.
[16] Girshick, R., Donahue, J., Darrell, T., & Malik, J. Rich feature hierarchies for accurate
object detection and semantic segmentation[C]. Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition, 2014: 580-587.
[17] Girshick, R. Fast R-CNN[C]. Proceedings of the IEEE International Conference on
Computer Vision, 2015: 1440-1448.
[18] Ren, S., He, K., Girshick, R., & Sun, J. Faster R-CNN: Towards real-time object
detection with region proposal networks[J]. Advances in Neural Information Processing
Systems, 2015, 28: 91-99.
[19] Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. You Only Look Once: Unified,
Real-Time Object Detection[C]. Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition, 2016: 779-788.
[20] Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C. Y., & Berg, A. C. SSD:
Single Shot MultiBox Detector[C]. Proceedings of the European Conference on
Computer Vision, 2016: 21-37.
[21] Lin, T. Y., Goyal, P., Girshick, R., He, K., & Dollar, P. Focal Loss for Dense Object
Detection[C]. Proceedings of the IEEE International Conference on Computer Vision,
2017:2999-3007.
[22] Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., & Zagoruyko, S. End-to-
End Object Detection with Transformers[C]. Proceedings of the European Conference on
Computer Vision, 2020:213-229.
[23] Qiu, S., Wen, G., Deng, Z., Liu, J., & Fan, Y. Accurate non-maximum suppression for
object detection in high-resolution remote sensing images[J]. International Journal of
Remote Sensing, 2018, 39(5): 1438-1455.
[24] Hussain, M. YOLOv1 to v8: Unveiling Each Variant–A Comprehensive Review of
YOLO[J]. IEEE Access, 2024, 1: 1-12.
[25] Cai, Z., Vasconcelos, N. Cascade R-CNN: Delving into high quality object detection[J].
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition
(CVPR), 2018: 6154-6162.
[26] 王永, 王朝, 张红, 董悦, 魏松. 复杂背景下深度学习船舶检测的 SAR 数据集[J]. 遥感,
2019, 11(7): 765.
[27] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.
36
[28] Wang B. A Parallel Implementation of Computing Mean Average Precision[J]. arXiv

preprint arXiv:2206.09504, 2022.
[29] Tian Z, Shen C, Chen H, He T. FCOS: Fully Convolutional One-Stage Object
Detection[J]. arXiv preprint arXiv:1904.01355, 2019.
[30] Lin TY, Dollár P, Girshick R, He K, Hariharan B, Belongie S. Feature Pyramid Networks
for Object Detection[C]. Proceedings of the IEEE Conference on Computer Vision and
Pattern Recognition (CVPR), 2017: 936-944.
[31] He K, Zhang X, Ren S, Sun J. Deep Residual Learning for Image Recognition[C].
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition
(CVPR), 2016: 770-778.
[32] 徐从安, 苏航, 李健伟, 刘瑜, 姚力波, 高龙, 闫文君. RSDD-SAR: SAR 舰船斜框检测
数据集[J]. 雷达学报, 2022.
[33] Terven J, Córdova-Esparza DM. A comprehensive review of YOLO architectures in
computer vision: From YOLOv1 to YOLOv8 and YOLO-NAS[J]. Machine Learning and
Knowledge Extraction, 2023, 5(4): 83.
[34] 李明, 张华. 基于改进 Cascade RCNN 网络的 X 光安检违禁品检测[C]. //Proceedings
of the International Conference on Computer Vision and Pattern Recognition (CVPR).
2023: 123-130.
37
致谢
在此论文即将完成之际，我怀着无比感激的心情向在研究和写作过程中给予我帮
助和支持的所有人表示衷心的感谢。
首先，感谢我的导师老师。在整个研究过程中，您给予了我悉心的指导和无私的
帮助。从选题、实验设计到论文写作，您都耐心地为我提供了宝贵的建议和指导，使
我在学术研究的道路上不断前行。
其次，感谢学长。在我的研究过程中，您给予了我许多宝贵的建议和指导。无论
是在实验设计、数据分析还是论文撰写的过程中，您的经验和见解都对我的研究起到
了重要的作用。
再次，感谢研究小组的各位同学。您们在实验和数据处理过程中给予了我许多帮
助和支持。在我遇到困难时，您们经常关心我的研究进展，并给予了我许多鼓励和帮
助。您的宝贵意见和热心帮助使我的研究得以顺利进行。
38

11.毕业设计论文_匿名版

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

11.毕业设计论文_匿名版

Uploaded by

Copyright:

Available Formats

本科毕业设计论文

Research on Intelligent Recognition of Sea Surface

College of Information Engineering

RESEARCH ON INTELLIGENT RECOGNITION OF

As global maritime activities increase, accurate identification of sea surface targets

图 1-1 SAR 原理图

(a) 水平框 (b) 旋转框

然而，尽管旋转框方法在很多领域中取得了进展，其在 SAR（Synthetic Aperture

本研究旨在开发一种针对 SAR 图像的旋转框目标检测模型，主要任务包括：

卷积神经网络（Convolutional Neural Network, CNN）最早于上世纪 80 年代被提出，

图 2-1 AlexNet 模型[13]

图 2-4 ReLU 函数图像

图 2-5 Leaky ReLU 函数图像

图 2-6 Sigmoid 函数图像

在实际应用中，池化层被广泛应用于各种 CNN 架构，如 VGG 和 ResNet，用于图

Transformer 的目标检测算法如 DETR（Detection Transformer）也引起了广泛关注，展

在传统的目标检测中，边界框通常是轴对齐的矩形框（ Axis-Aligned Bounding

YOLO 系列从最初的版本到现在的 YOLOv8，经历了多个重要的改进和 演变

图 3-1 YOLOv8 模型[33]

YOLOv2（YOLO9000）在 YOLOv1 的基础上进行了显著改进，引入了锚框机制

3.1.2 Faster R-CNN

Faster R-CNN 是区域卷积神经网络（R-CNN）系列中的一个重要进步，显著提升

图 3-2 Faster R-CNN 模型[18]

Faster R-CNN 首先使用卷积神经网络（如 VGG16 或 ResNet）从输入图像中提取

3.1.3 Cascaded R-CNN

Cascaded R-CNN 是一种改进的目标检测算法，旨在通过多级检测器级联来提高目

图 3-3 Cascaded R-CNN 模型[34]

Cascaded R-CNN 的工作流程始于一个基础的目标检测器，这个初级检测器用于生

图 3-4 SAR-Ship-Dataset 的示例

该数据集主要由我国国产高分三号 SAR 数据和 Sentinel-1 SAR 数据构成，共包含

3m 到 25m 不等。Sentinel-1 的成像模式则包括条带模式（S3 和 S6）和宽幅成像模式，

图 3-5 IOU 计算的过程示意图

此外，IOU（Intersection over Union）是目标检测任务中常用的评价指标，用于衡

图 3-6 模型 mAP 值对比数状图

此外，图 3-7 也显示出来其每个模型的运行一张图片的所需时间。

原图 Cascade-RCNN Faster-RCNN YOLOv8

第4章 基于改进 RFCOS 的旋转框检测

FCOS（Fully Convolutional One-Stage Object Detection）是一个由中科院自动化所

图 4-1 FCOS 模型[29]

4.2 FCOS 网络解析

4.2.1 骨干网络 backbone

在 FCOS （ Fully Convolutional One-Stage Object Detection ） 模 型 中 ， 骨 干 网 络

取和残差模块的应用，ResNet 能够有效捕捉图像的细节和高级语义信息，为 FCOS 的

4.2.2 Neck 特征金字塔

在 FCOS（Fully Convolutional One-Stage Object Detection）模型中，特征金字塔

4.2.3 FCOS Head

在 FCOS（Fully Convolutional One-Stage Object Detection）模型中，head 部分负

RFCOS（Rotated Fully Convolutional One-Stage Object Detection）是 FCOS（Fully

图 4-2 RSDD-SAR 数据集示例

在本次研究中，我们对 RFCOS 模型进行了改进，主要是将骨干网络从原本的

改进前，FCOS 使用 ResNet-50 作为骨干网络。ResNet-50 是一种较为经典的卷积

方法 骨干网络 recall mAP

RFCOS ResNet-50 0.715 67.8%

RFCOS ResNet-101 0.756 69.4%

在本次实验中，我们对 RFCOS 模型进行了改进，将骨干网络从 ResNet-50 更换

本章详细介绍了基于改进 RFCOS 模型的旋转框检测方法。首先，介绍了 FCOS

本研究围绕 SAR 图像中的目标检测任务，提出了一种基于改进 RFCOS 模型的旋

通过系统的实验验证，展示了改进后的 RFCOS 模型在不同场景中的表现。实验结

[15] Renas, M. R. Neural networks and Sigmoid Activation Function in Multi-Layer

[28] Wang B. A Parallel Implementation of Computing Mean Average Precision[J]. arXiv

You might also like

YOLO 系列从最初的版本到现在的 YOLOv8，经历了多个重要的改进和演变

第4章基于改进 RFCOS 的旋转框检测

在 FCOS （ Fully Convolutional One-Stage Object Detection ）模型中，骨干网络

方法骨干网络 recall mAP