DG-Net++快速理解

部署运行你感兴趣的模型镜像

Joint Disentangling and Adaptation for Cross-Domain Person Re-Identification

我以为我懂了,看了模型图发现还是高估了自己。


论文快速理解

论文地址:https://arxiv.org/pdf/2007.10315.pdf
代码地址:https://github.com/NVlabs/DG-Net-PP


这篇论文是在DG-Net上面的扩展,主要解决的是跨域问题。用到了unsupervised domain adaptation无监督的域适应,同时使用了有监督的带标签的来自source domain和无监督的不带标签的target domain的数据。因此设计的核心思想是:align the feature distribution。本身来自不同域的数据可能在某些地方差距很大,具体到ReID问题上,这些差异表现在:季节、背景、视角、光照等。所以需要对齐两类数据的分布,从而提高模型复用效果。

以往的常用方法主要可以分为两大类:

  1. 在input level层面的,比如使用GAN进行风格转换。
  2. 在feature level层面的,比如self-training和distribution distance minimization等。

主要还是减少不同域的数据集的差异。

但是作者认为现有的方法都存在一个问题,就是在同时包含了id相关性和id相关的特征空间上完成adaptation,这个混杂的特征空间反而会削弱最终的效果。

所以作者提出解耦特征空间分成id相关和id不相关的部分,然后在id相关的部分进行适应。两个部分的效果是可以相互促进激励的。

论文主要包括以下三个贡献

  1. 用于无监督跨域学习的联合框架,并且能对特征进行解耦。
  2. 引入跨域的cycle-consistency来实现目标的解耦效果。
  3. 解耦过程和适应过程是co-designed的。

DG-Net++结成了DG-Net中的两个appearance encoder和structure encoder,但是解决的是不同的问题:

  1. DG-Net++解决的是无监督跨域问题。
  2. DG-Net++在无监督情况下进行了对id相关和非相关特征的解耦。
  3. DG-Net++的解耦过程和适应过程连结在一起,彼此受益。

作者将自己提出的框架分为两个模块,一个是Disentangling Module,主要作用是分离出id相关的特征。在该部分使用了一个cycle-consistency generation的结构,来自两个域的图生成的新的图可以还原为各自的原始图像。Adaptation module则专注于id相关的特征来完成adaptation。两个模块通过共享的appearance encoder组合在一起。
在这里插入图片描述

Disentangling Moduel

给定一个source domain中的图像xs(i)x_{s(i)}xs(i)和一个target domain中的图像xt(j)x_{t(j)}xt(j),交换它们的appearance code或structure code就可以生成一个新的图像。
disentangling 模块包括以下几个部件:

  1. 一个共享的appearance encoder。Eapp:x→vE_{app}:x \rightarrow vEapp:xv
  2. 一个用于source domain图像的structure encoder。Estrs:xs(i)→τs(i)E^s_{str}:x_{s(i)} \rightarrow \tau_{s(i)}Estrs:xs(i)τs(i)
  3. 一个用于target domain图像的structure encoder。Estrt:xt(j)→τt(j)E^t_{str}:x_{t(j)} \rightarrow \tau_{t(j)}Estrt:xt(j)τt(j)
  4. 一个用于source domain的decoder。Gs:(vt(j),τs(i))→xs(i)t(j)G^s:(v_{t(j)},\tau_{s(i)}) \rightarrow x^{t(j)}_{s(i)}Gs:(vt(j),τs(i))xs(i)t(j)
  5. 一个用于target domain的decoder。Gt:(vs(i),τt(j))→xt(j)s(i)G^t:(v_{s(i)},\tau_{t(j)}) \rightarrow x^{s(i)}_{t(j)}Gt:(vs(i),τt(j))xt(j)s(i)
  6. 一个用于判断真实图像和生成图像的判别器DimgD_{img}Dimg
  7. 一个用于判断图像来自哪个域的判别器DdomD_{dom}Ddom<

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

GPT-oss:20b

图文对话
Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型,面向强推理、智能体任务以及多样化开发场景

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值