这篇CVPR2020的论文,和MAST的任务相仿,都是从training阶段就放弃annotation的使用,变成了彻头彻尾的无监督学习,为VOS任务提供了一个新的高效学习范式。不同的是这篇文章不仅可以用来做O-VOS(one shot半监督给定第一帧mask),还可以用来做Z-VOS(zero shot无监督无第一帧mask)。

文章采用multiple granularities的方式,来学习到多粒度的视频帧的特征表示,四种granularity如下:
(1)frame granularity:通过显著性检测或者CAM maps来挖掘帧内的信息,鉴别前景部分和背景部分;
(2)short-term granularity:通过施加局部表示的consistency约束,用来比较连续几帧间的视觉pattern;
(3)long-range granularity:施加远距离frame之间的语义联系,使得帧之间的特征表示对occlusion,外观的变化以及deformation;
(4)whole-video granularity:通过融合多帧的信息,让视频表示去学习到global和conpact的内容,并且和其他视频序列的representation加以区别。
感觉(2)和(3)两点与MAST的memory的目的有相似之处,但处理的方法完全不同;而(1)的存在使得本篇文章可以处理Z-VOS的任务。整个流程图如下图所示:

本篇文章的思路感

最低0.47元/天 解锁文章
2310

被折叠的 条评论
为什么被折叠?



