论文地址
论文提出的主要创新点就为了弥补某算法可以在已数据集上取得很好的效果,但是在其他数据集上泛化性能较差。作者通过借鉴Cycle-GAN的思想提出了PTGAN,与Cycle-GAN不同的是PTGAN可以生成更高质量的person image。通过PTGAN可以有效的减少各数据集之间的域间隔。
Related Work
我们这个工作主要分为在ReID中的descriptor learning与通过GAN的image-to-image 风格转移。大多数方法学习的是全局的descriptors同时忽略了重要的局部信息.[1]解决了这个问题。[2]提出通过一定的人工制作特征可以作为深度特征的补充。尽管大量的方法取得很好的效果,但是忽略了不对齐问题。
[3] utilize Deepercut [4] to detect three coarse body regions and then learn an global local-alignment descriptor. In [5], more fine-grained part regions are localized and then fed into the proposed Spindle Net for descriptor learning. Similarly, Li et al. [6] adopt Spatial Transform Networks (STN) [7] to detect latent part regions and then learn descriptors on those regions.
在[8]中提出了一种可以从输入输出图片学习映射函数的网络,但是需要成对的输入图片,[9],[10],[11]提出方法解决这个问题。在本文中我们参考与Cycle-GAN类似的方法提出PTGAN。
MSMT17 Dataset
已有的数据集有众多不足,简要总结有以下四点:
1)行人或摄像头过少;2)大部分数据集仅在单一场景下采集(室内室外);3)大部分现存的数据集是由短时间采集没有明显的光线变化;4)bounding boxes由昂贵的手工或过时的算法标注。
MSMT17是一种混合场景混合时段的行人数据集,使用了15个摄像头其中12个室外摄像头,3个室内摄像头。在一个月内的选择不同天气条件的四天采集视频数据收集。每天分别在早晨,中午,晚上进行三个小时的数据采集。使用faster-rcnn进行bounding-box标注。
Person Transfer GAN
PTGAN最大的特点就是保证行人前景不变的前提下实现背景迁移,遵循两个限制即风格迁移和人的保留。风格迁移通过学习两不同数据集间的风格映射函数,人的保留达到风格迁移后的人的图片保持变。因为风格迁移后人的ID是不变的,因此我们需要在训练过程中限制人的身份。
定义loss founction:
LP T GAN =LStyle + λ1LID
LStyle表示style损失,LID表示identify损失,λ1权衡两个loss权重。
LStyle =LGAN (G, DB, A, B) + LGAN (G’, DA, B, A) + λ2Lcyc(G, G’)
[1]Person re-identification by multi-channel parts-based cnn with improved triplet loss function
[2]An enhanced deep feature representation for person re-identification
[3]Global-local-alignment descriptor for pedestrian retrieval.
[4]Deepercut: A deeper, stronger, and faster multiperson
pose estimation model.
[5]Person re-identification with human body region guided feature decomposition and fusion.
[6]Learning deepcontext-aware features over body and latent parts for person re-identification.
[7]Spatial transformer networks
[8] Imageto-image translation with conditional adversarial networks.
[9]Unpaired imageto-image translation using cycle-consistent adversarial networks
[10]Unsupervised dual learning for image-to-image translation
[11]Learning to discover cross-domain relations with generative adversarial networks