论文地址:https://ieeexplore.ieee.org/document/9010003
源码地址:https://github.com/He-Zhenwei/MAF
1 Core Idea
多对抗Faster RCNN潜在地解决了域自适应在特征上的不一致,本文的方法包括三部分:1)分层域特征对齐模块;2)信息不变性尺度降低模块(information invariant scale reduction module)来resize分层的feat map;3)聚合proposal feat和检测结果,然后喂进weighted gradient reversal layer,增加难confuse样本的权重,降低易confuse样本的权重。
2 Network
2.1 Hierarchical Domain Feature Alignment
Hierarchical Domain Feature Alignment目的是校正源域和目标域间在卷积特征图谱上的分布差异。猜想:假如域间的图像级分布相似,那么目标级的分布也应该相似。整一张图像上的分布差异是导致域偏移的主要原因。在深度网络中,中层的卷积特征图谱包含影响图像的信息,且多层的特征对齐有助于最后的域对齐。第m个卷积模块中的对抗分类器子模块的minimax学习函数为:
为了提高训练的效率,提出SRM模块,旨在无信息损失地对feat map下采样,SRM包含两步:1)一个1×1的卷积层,用于降低每个block的feat map的通道数;2)re-align特征,降低scale,提高channel数量。假设s×s的邻近像素,则有:
S即为采样因子,代表s×s的邻近像素都融合进一个特征。
2.2 Aggregated Proposal Feature Alignment
目的:实现语义对齐的同时保留用来分类和回归的信息。RPN出来的proposals含有图像的局部区域,将proposal feats和detection结果拼接在一起,好处有:1)分类结果丰富了关于类别的信息,同时回归结果包含了bbox位置信息;2)提高特征的判别力,更容易且更高效地训练域分类器。该部分的损失函数:
采用weighted gradient reversal layer,relax容易confuse的样本,penalize难confuse的样本。如图3,靠近域分类决策边界的样本是容易confuse的,分类器难辨别它们;反之远离域分类决策边界的样本是难confuse的,这些样本的domain discrepancy很大,因此我们要把注意力放在后者,给他们更高的梯度上的权重。此外,WGRL认为域分类器的分数相当于对应样本的权重。假设一张图像中一个proposal属于源域的概率由域分类器预测为p,属于目标域的概率为1-p,reversal前的梯度是G,reversal后的梯度是G_rev,则WGRL:
D是图像的域标签,higher confidence = hard confuse = 域自适应需要进一步加强;lower confidence = easy confuse = down-weight