Download as pdf or txt
Download as pdf or txt
You are on page 1of 5

DAFormer: Improving Network Architectures and Training Strategies for Domain-

Adaptive Semantic Segmentation 论文解读

1 这篇文章要解决什么问题?要验证一个什么科学假设?

主要解决 UDA 的问题。验证在合成数据上训练语义分割,转移到真实图像中也能较好的识


别。
创建一个新的 UDA 方法,相比于旧的 backbone,DAformer 能很好地解决 UDA 问题。并且提
出了三种策略来稳定 UDA,防止过拟合等问题。

2 这篇文章有哪些相关研究,这些研究是怎么分类的?有哪些研究员值得关注?
相关研究:早期 UDA 方法:DeepLabV2,FCN8s with Resnet or VGG,语义图像分割
值得关注的研究员:Dengxin Dai

3 论文中提到的解决方案是什么,关键点在哪儿?
对于语义分割模型不易标注的问题,提出用合成数据进行训练,用 UDA 可以解决。
提到的解决方案:1.self-training for UDA:产生 pseudo label
2.DAFormer 网络结构:采用 segformer 的 hierarchical 方式得到不同尺度的特征,然后将
这些特征进行对齐通过一个类似于 ASPP 的结构去融合不同尺度的内容。
3. UDA 训练策略:
1.Rare Class Sampling (RCS) :解决数据类别不均衡问题
2.Thing-Class ImageNet Feature Distance:问题:从 Imagenet 预训练中区分 thing-classes
特征在迭代后期会被忘记。解决办法:减少 Imagenet 中 thing-classes 的特征距离,基于
feature distance 添加一个正则。

3.learning rate warmup

4 论文中的实验是如何设计的?各个实验分别得到了什么结论?
1)比较 Cityscapes->GTA 的数据集下,不同语义分割结构的 UDA 性能表现(mIoU)。证明
SegFormer 效果最好。
2)SegFormer encoder 和 decoder 的消融实验:说明在 encoder 为 MiT-B5 时,segformer
的 decoder 效果比 DLv3+好。

3)不同 encoder 对于 UDA 性能的影响。说明:Segformer 的 encoder 好。

4)学习率 warmup 对于 UDA 性能的影响(说明加入 Lr Warmup,性能提升很明显)


5)MiT-B5 经过 imagenet 预训练后提取的特征效果比 Resnet101 好。

6)对于罕见类 rider 和 bicycles,加入 RCS 后的 SegFormer 的 UDA 的性能更好。

7)对于刚开始的训练,加 FD 后的 SegFormer 的 UDA 的性能更好。

8)UDA 框架中,各组成部分的消融实验。说明:加入这些成分,均能够提升性能效果。
9)Class-wise performance

10)与最新 UDA 方法进行比较,DAFormer 的效果最好。

11)MiT 作为 encoder,比较不同 decoder 下,UDA 性能改进。说明:加了 DSC 的 DAFormer


的 UDA 改进最好。
5 用于定量评估的数据集是什么?开源的话给出代码的链接。
数据集
Cityscapes:1024*512
GTA:1280*720

6 这篇论文到底有什么贡献?新的地方
1)提出了一个新的 backbone,DAFormer,将 transformer 用于 UDA
2)提出三种训练策略来稳定 UDA:RCS,FD,Warmup

7 下一步还能基于它做什么?有什么工作可以继续深入?
1)进一步修改 backbone
2)更换不同的 decoder 或 encoder 继续进行测试

You might also like