推荐几篇这几天看到的个人认为比较有意思的paper,
1.Removing the Background by Adding the Background: Towards Background
Robust Self-supervised Video Representation Learning
通过添加背景的方式移除背景,算是一种新的自监督的视频表示学习。
目的:提出了一种新颖的对时间敏感的背景擦除(TBE)方法进行自监督学习。这种方法最小化了样本之间的特征距离以及通过时空变换和视频内混合构建的样本的变化。
主要问题背景:当前的视频表示学习受到了back-ground cheating的问题,即静态背景帧会影响到动作相关的特征的学习,这样会使学习过程受到影响。
方法:作者提出通过添加背景来消除背景的影响。核心思想是:给定一个视频,随机选择一个静态帧,然后将其添加到所有帧中,构建一个分散注意力的视频样本。接着强制模型提取分散注意力视频的特征以及原始视频的特征,使得两者尽量相似,这样可以使模型受到限制以抵抗背景的影响,从而更多地关注运动特征的变化。另外,为了防止静态帧过多地干扰运动区域,作者将特征限制为与逆向视频的时域反转特征相一致,从而使模型将更多的注意力集中到运动特征。
图 1 background cheating的解释
图2 TBE方法的框架