论文:Strong-Weak Distribution Alignment for Adaptive Object Detection
一、简介
这篇文章目的在于解决无监督域适应目标检测(Unsupervised Domain Adaptation for Object Detection), 之前state of the art 是 2018年CVPR的 Domain Adaptive Faster R-CNN for Object Detection in the Wild, 对应论文笔记:DA Faster RCNN。
Motivation
在图像分类中无监督域适应方法中,大多数是尽量使得目标域数据和源域数据完全匹配。作者认为,在目标检测任务中,由于不同的域有着不同的场景布局和目标组合,完全匹配目标域和数据域的分布将降低模型的 performance。但是,由于 low-level 局部特征匹配不会改变原有的类别语义信息,所以可以将它们进行强匹配。基于上面两个原因,作者提出了:
- 核心 contribution 弱对齐模型(weak alignment model) : 使用对齐 loss 更多的强调整体相似的样本对齐,不强调整体不相似的样本对齐。
- 强 域对齐 : 加强对齐feature map的局部感受野,如纹理、颜色等
具体如 Figure 1 所示,学习域不变的特征,局部特征上的强对齐,全局场景上的弱对齐:
![]() |
二、方法
![]() |
整体框架基于 Faster-RCNN, 在 RPN 之前抽取全局特征,局部特征来自特征抽取器中更低的层。
2.1 Weak Global Feature Alignment
![]() |
作者使用一个域分类器去对齐目标域和源域全局特征,在特征空间中,容易区分的目标样本距离源域样本非常远,而难以区分的目标样本距离源域样本很近,如 Figure 2 左边图所示。作者提出训练域分类器去忽略容易区分的样本,而去强调难以区分的样本。
为了完成上面的这个目标,作者提出使用Focal loss,如 Figure 2 右边图所示。交叉熵的问题在于对于很容易分类的样本同样会产生不可忽视的 loss 值,而 Focal loss 通过修改交叉熵引入一个修改因子 f ( p t ) f(p_t) f(pt)使得对于容易区分的样本,产生一个极小的loss。 修改后的交叉熵为:
− f ( p t ) l o g ( p t ) -f(p_t)log(p_t) −f(pt)log(pt)
其中 p t p_t pt 为:
p t = { p if d = 1 1 − p otherwise p_{\mathrm{t}}=\left\{\begin{array}{ll}{p} & {\text { if } d=1} \\ {1-p} & {\text { otherwise }}\end{array}\right. pt={
p1−p if d=1 otherwise
d = 1 d = 1 d=1 代表该样本属于目标域, p p p 为对于的概率。作者选择一个函数 f f f 使得随着 p t p_t pt 增加, f f f值减小。
F L ( p t ) = − f ( p t ) log ( p t ) , f ( p t ) = ( 1 − p t ) γ \mathrm{FL}\left(p_{\mathrm{t}}\right)=-f\left(p_{\mathrm{t}}\right) \log \left(p_{\mathrm{t}}\right), f\left(p_{\mathrm{t}}\right)=\left(1-p_{\mathrm{t}}\right)^{\gamma} FL(pt)=−f(pt)log(pt),f(pt)=(1−pt)γ
其中 γ \gamma γ 是一个难区分类的权重值。
整个弱对齐域分类器 loss 定义如下:
L global s = − 1 n s ∑ i = 1 n s ( 1 − D g ( F ( x i s ) ) γ log ( D g ( F ( x i s ) ) ) \mathcal{L}_{\text {global}_{s}}=-\frac{1}{n_{s}} \sum_{i=1}^{n_{s}}\left(1-D_{g}\left(F\left(x_{i}^{s}\right)\right)^{\gamma} \log \left(D_{g}\left(F\left(x_{i}^{s}\right)\right)\right)\right. L