CVPR18读文笔记：SINT++：Robust Visual Tracking via Adversarial Postive Instance Generation_hard positive transformation network-优快云博客

本文介绍了SINT++，一种通过对抗性正样本生成网络（PSGN）和硬正样本变换网络（HPTN）提高视觉跟踪稳健性的方法。PSGN使用VAE生成多样性和变形的正样本，解决正样本不足的问题；HPTN通过深度强化学习（DRL）学习使用背景负样本创建遮挡的hard正样本，解决hard正样本稀缺问题。SINT++结合SINT（一个离线训练的匹配函数）形成两流Siamese实例搜索网络，旨在增强对目标在线外观变化的捕获和适应能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CVPR18一共出现了3篇将Adersarial概念应用于tracking，解决正样本弱的问题。VITAL是用了GAN，惊为天人。本文国产，索然性能不是最优，但是VAE+DRL+SINT的集大成之作，还是足够significant。

本文主旨：

Improve the robustness of visual tracking through the generation of hard positive samples. Baseline tracker用的是SINT，即一个Siamese two-frame matching（learn a matching function to match DRs in new frame match to Trajs in last frame）。

文章概述：

针对online trained T-by-D tracker训练时（hard）正样本（双重）匮乏（具有long-tail distribution的rare and uncommon positive samples）的问题，即1. 正样本总量少且在线密集重叠采样导致正样本之间overlap太大，不够diverse；2. Hard正样本（被遮挡和形变的）更少。这种训练数据的匮乏导致训练所得的classifier and tracker无法捕捉和适应目标在线发生的外观变化。

传统方法为了解决正样本总量少的问题，可采用暴力采集样本扩大数据集或者random geometric or appearance transformation的data augmentation。这两种方法1. 费时费力不智能；2. 依旧不能解决hard positive少的问题。

因此，为了填补Deep CNN对正样本的需求与跟踪本质上只能提供有限正样本的这个矛盾。本文1. 通过Adversarial Generation（VAE）的思想，补充增强正样本；2. 通过DRL学习用背景负样本图片遮挡正样本图片生成hard正样本。

总结来说，本文一共由三大核心模块组成，解决三个核心问题：

Positive Sample Generation Network (PSGN)：

假设所有目标样本都存在于一个manifold之上，因为用一个VAE（Variational Auto-Encoder）来decode生成大量与原encoding样本相似但又不完全一样的（with more diversity and degree of deformation and motion blur）正样本；解决正样本总量少的问题；