论文笔记:Adapting Object Detectors via Selective Cross-Domain Alignment

论文地址:https://ieeexplore.ieee.org/document/8953252

源码地址:https://github.com/xinge008/SCDA


1 Focus of Attention

        将关注焦点放在可能包含感兴趣目标的局部区域上,先找出要找的地方,再想怎么对齐。过往的工作把输入图像看作是一个整体,却忽略了目标的局部性质,且降低img-level的域间差异会遇到根本性的困难(结构和外表上的变化),也即局部目标没有得到完全的照顾。因此将自适应过程的焦点从全局到局部,提出一个框架包括两个关键部分:region mining和region-level alignment,分别解决where to look和how to align两个问题。前者是一个“grouping”策略,识别出最重要的局部regions,同时后者使用源域的region proposals来re-weight目标域的region proposals,以解决缺乏target标注的问题;然后用对抗训练的方式实现region-level的域对齐

2 Framework Overview

       为了得到一个domain-invariant的feat representation,在两个域都能work。提出一个基于region patches的有选择性自适应框架。大意是一个额外的模块重构feats的img patches,然后将重构后的patches进行对齐。在这个模块的训练过程中,可以通过back-propogation实现特征的学习,以减少域间的差异。训练好之后,这个模块就没用了,只用基本网络来测试。

2.1 Region-Mining

2.1.1 Grouping

      想要找出那些覆盖着object of interest的区域,自然能想到利用RPN得到的region proposals来解决问题。但会面临两种挑战:

  • 我们想要固定尺寸的regions,以方便后续的处理,但RPN出来的region proposals尺寸是随机的;
  • 而且RPN出来的region proposals含有很多的噪声;

      我们通过centroid-based grouping(形心法)来解决这个问题,RPN得到个region proposals,并以的方式展示,然后对中心点坐标用K-means方法得到K个簇,每个簇的平均值可以看成组合后的regions的形心,且每个区域的尺寸是固定的。通过这个方法可以识别出那些含有目标的regions。

2.1.2 Feature Reassignment

      通过把对应的RoI特征堆叠起来,可以获得一个矩阵,代表第k个region,这里的m_k是对应第k簇的region proposals数量,d是特征的维度。但由于m_k变幻莫测,所以采用“select-or-copy”方法,给定一个预训练的参数m,当m_k不足m时,把指定的特征进行复制;反之,则挑出top-m个特征,即得到

3 Adjusted Region-level Alignment

3.1 Region-Level Adversarial Alignment

      用两个生成器G_s和G_t来基于重构k个regions,同时用两个判别器D_s和D_t来判断真/假输入,并施加域对齐约束。标准的联合目标函数包含了域内以及域外的损失:

理论基础(域内/域外损失):

(自重建)

D_s和D_t对重构的regions和元时输入对应的regions进行判别

==》fake source/true source  |  fake target/true target

(交叉重建)

源域的Kmd特征输入到右下分支,生成目标域风格的重建regions,用D_t判别;

==》fake target/true target

目标域的Kmd特征输入到右上分支,生成源域风格的重建regions,用D_s判别;

==》fake source/true source

每一项都是一个标准的对抗形式,此处的P代表基于簇中心Ψ得到的真实image regions:

 

       因此,判别器D_s和D_t的目标是使单个域内的real输入识别成real;生成器G_s和G_t的目标是使单个域内的fake 输入识别成real(和判别器相反);而检测器F的目标是不同域的,使fake source识别成real target(即给目标域判别器喂fake source),这代表了检测模型在域对齐中遇到的约束。

3.2 Weighting Estimator D_w

      原因:target domain没有标注,可以凭借source domain的gt bbox,给target domain提供帮助。

      做法:引出一个估计项,根据目标域region和source的相似度来给目标域regions加权。训练这个估计项,来判别介于source region proposals(标签为1)和target proposals(标签为0)的表征。用BCE loss来训练:

 

      是reassignment后的各簇region表征。在这里,D_w的分数可以很好地表明一个target的region有多匹配source的region。然后用这个分数来给target regions加权:先sigmoid后平均得到W_t。分数越高,表明target region更有可能包含感兴趣的目标,且更相似source patched的分布。其中W_t只应用于target domain项:

3.3 Total Objective Function

4 网络优化过程

更新判别器D_s和D_t:

更新权重估计项D_w:

更新生成器G_s和G_t:

更新检测器F:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值