这篇CVPR2020的论文,和MAST的任务相仿,都是从training阶段就放弃annotation的使用,变成了彻头彻尾的无监督学习,为VOS任务提供了一个新的高效学习范式。不同的是这篇文章不仅可以用来做O-VOS(one shot半监督给定第一帧mask),还可以用来做Z-VOS(zero shot无监督无第一帧mask)。
文章采用multiple granularities的方式,来学习到多粒度的视频帧的特征表示,四种granularity如下:
(1)frame granularity:通过显著性检测或者CAM maps来挖掘帧内的信息,鉴别前景部分和背景部分;
(2)short-term granularity:通过施加局部表示的consistency约束,用来比较连续几帧间的视觉pattern;
(3)long-range granularity:施加远距离frame之间的语义联系,使得帧之间的特征表示对occlusion,外观的变化以及deformation;
(4)whole-video granularity:通过融合多帧的信息,让视频表示去学习到global和conpact的内容,并且和其他视频序列的representation加以区别。
感觉(2)和(3)