DG-Net快速理解

Joint Discriminative and Generative Learning for Person Re-identification

帮微博妹妹整毕设,发现之前学习ReID的时候还是漏掉了很多东西,比如基于GAN的ReID模型,下午看了看论文,整理一下内容。


论文地址:https://arxiv.org/abs/1904.07223
源码:https://github.com/NVlabs/DG-Net (正在跑)
视频链接:https://www.bilibili.com/video/av51439240/ (还没来得及看)


论文快速理解

限制行人重识别效果的一大问题是 不同摄像头下同一人的特征差异较大,即intra-class variation的影响。同时常用的行人重识别数据集中数据量的大小限制了模型效果。所以作者希望在扩增训练数据的同时增强数据的invariance。

一般用GAN来辅助行人重识别任务,都是直接用GAN完成数据扩增的部分,生成大量fake数据,在这些数据上进行训练。作者认为在这种情况下,GAN的部分也是一个单独的模型,和reid模型仍然是分开的。

论文中提出了名为DG-NET的模型。利用了GAN来进行数据扩增从而辅助REID模型的分类效果。并且GAN和REID模型是联合在一起形成了一个统一的框架来进行的。

在这里插入图片描述

Generative module

首先介绍generative module生成模块,在这一部分,作者使用了两个encoder对原始输入图像进行编码,分别将原始输入图像投射到appearance space和structure space。其中appearance包括衣服颜色、纹理风格等相关的特征,而structure包括身体大小、姿态、位置、背景等因素。作者希望实现的情况是使用不同的appearance和structure的组合,来生成大量的1.质量足够好分不出真假;2. 包含足够多的diversity的新数据。

由于structure code中可能保留更多的spatial resolution,G生成器可能会忽略掉appearance的作用而过分看重structure,一个处理方法是,把structure encoder的输入转成灰度图

在生成模块的生成过程中,要考虑到以下的情况。

  1. self-identity generation

    1. appearance和structure都来自于同一张图片的情况,希望通过decoder生成的新的图像和原图实现像素层次上的一致,pixel-wise loss
      Lreconimg1=E[∣∣xi−G(ai,si)∣∣1] L^{img_1}_{recon}=E[||x_i-G(a_i,s_i)||_1] Lreconimg1=E[xiG(ai,si)1]

    2. appearance来自和structure同一人的情况,希望通过decoder生成的信徒下和原图实现像素层次上的一致,即给定一人的structure,使用该人的appearance都需要还原到structure对应的原图。
      Lreconimg2=E[∣∣xi−G(at,si)∣∣1] L^{img_2}_{recon}=E[||x_i-G(a_t,s_i)||_1] Lreconimg2=E[xiG(at,si)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值