Professional Documents
Culture Documents
DAFormer Reading Notes
DAFormer Reading Notes
1 这篇文章要解决什么问题?要验证一个什么科学假设?
2 这篇文章有哪些相关研究,这些研究是怎么分类的?有哪些研究员值得关注?
相关研究:早期 UDA 方法:DeepLabV2,FCN8s with Resnet or VGG,语义图像分割
值得关注的研究员:Dengxin Dai
3 论文中提到的解决方案是什么,关键点在哪儿?
对于语义分割模型不易标注的问题,提出用合成数据进行训练,用 UDA 可以解决。
提到的解决方案:1.self-training for UDA:产生 pseudo label
2.DAFormer 网络结构:采用 segformer 的 hierarchical 方式得到不同尺度的特征,然后将
这些特征进行对齐通过一个类似于 ASPP 的结构去融合不同尺度的内容。
3. UDA 训练策略:
1.Rare Class Sampling (RCS) :解决数据类别不均衡问题
2.Thing-Class ImageNet Feature Distance:问题:从 Imagenet 预训练中区分 thing-classes
特征在迭代后期会被忘记。解决办法:减少 Imagenet 中 thing-classes 的特征距离,基于
feature distance 添加一个正则。
4 论文中的实验是如何设计的?各个实验分别得到了什么结论?
1)比较 Cityscapes->GTA 的数据集下,不同语义分割结构的 UDA 性能表现(mIoU)。证明
SegFormer 效果最好。
2)SegFormer encoder 和 decoder 的消融实验:说明在 encoder 为 MiT-B5 时,segformer
的 decoder 效果比 DLv3+好。
8)UDA 框架中,各组成部分的消融实验。说明:加入这些成分,均能够提升性能效果。
9)Class-wise performance
6 这篇论文到底有什么贡献?新的地方
1)提出了一个新的 backbone,DAFormer,将 transformer 用于 UDA
2)提出三种训练策略来稳定 UDA:RCS,FD,Warmup
7 下一步还能基于它做什么?有什么工作可以继续深入?
1)进一步修改 backbone
2)更换不同的 decoder 或 encoder 继续进行测试