CVPR18一共出现了3篇将Adersarial概念应用于tracking,解决正样本弱的问题。VITAL是用了GAN,惊为天人。本文国产,索然性能不是最优,但是VAE+DRL+SINT的集大成之作,还是足够significant。
- 本文主旨:
Improve the robustness of visual tracking through the generation of hard positive samples. Baseline tracker用的是SINT,即一个Siamese two-frame matching(learn a matching function to match DRs in new frame match to Trajs in last frame)。
- 文章概述:
针对online trained T-by-D tracker训练时(hard) 正样本(双重)匮乏(具有long-tail distribution的rare and uncommon positive samples)的问题,即1. 正样本总量少且在线密集重叠采样导致正样本之间overlap太大,不够diverse;2. Hard正样本(被遮挡和形变的)更少。这种训练数据的匮乏导致训练所得的classifier and tracker无法捕捉和适应目标在线发生的外观变化。
传统方法为了解决正样本总量少的问题,可采用暴力采集样本扩大数据集或者random geometric or appearance transformation的data augmentation。这两种方法1. 费时费力不智能;2. 依旧不能解决hard positive少的问题。
因此,为了填补Deep CNN对正样本的需求与跟踪本质上只能提供有限正样本的这个矛盾。本文1. 通过Adversarial Generation(VAE)的思想,补充增强正样本;2. 通过DRL学习用背景负样本图片遮挡正样本图片生成hard正样本。
总结来说,本文一共由三大核心模块组成,解决三个核心问题:
- Positive Sample Generation Network (PSGN):
假设所有目标样本都存在于一个manifold之上,因为用一个VAE(Variational Auto-Encoder)来decode生成大量与原encoding样本相似但又不完全一样的(with more diversity and degree of deformation and motion blur)正样本;解决正样本总量少的问题;
- Hard Positive Transformation Network (HPTN):
用Deep Reinforcement Learning的手段学习如何使用负样本图片遮挡正样本图片以产生被遮挡的hard positive samples;解决hard正样本少的问题;
- Two-stream Siamese Instance Search Network。