Mask Free VIS笔记（CVPR2023 不需要mask标注的实例分割）

原创

已于 2023-10-24 17:08:30 修改 · 616 阅读

CC 4.0 BY-SA版权

文章标签：

于 2023-10-24 16:35:32 首次发布

文章介绍了一种无需掩码标注的视频实例分割方法，利用目标框信息并通过定义TemporalKNN(TK-loss)考虑视频帧的连续性。这种方法在处理视频中的实例分割比基于图像的box-supervised方法更精确，且计算量相对较小。

一般模型学instance segmentation都是要有mask标注的，
不过mask标注既耗时又枯燥，所以paper中仅用目标框的标注来实现实例分割。

主要针对视频的实例分割。
之前也有box-supervised实例分割，不过是针对图像的，用在视频中精度不是很高，
作者分析视频的特点是图像是连续的，那就是说同一目标区域在连续的帧中应该属于一个mask label.

理论是时间连续性，一个视频是由多个图片组成的连续的画面，目标的变化也是渐变的。
t+1时刻的帧与 t时刻对应的区域，像素如果属于同一目标或者背景，那么就应该有相同的mask.
这种找连续画面的对应区域，流行的是用光流法。

不过光流法面临2个问题：
1.不稳定，在有遮挡（找不到），没有明显的纹理（未定义），或者是只有一个边缘（模棱两可）时。
2. SOTA光流法用了深度网络，计算量内存量很大。

paper中定义了temporal KNN-patch loss(TK-loss)
简要介绍一下TK-loss，对于每一个目标patch, 在相邻帧找到matching score最高的前K个匹配。
对K个匹配都计算loss。

和光流法的区别是，光流法是1对1匹配，而TK-loss是1对K匹配。
K可以是0，比如遮挡的情况，也可以是K>=2, 比如天空，地面这种纹理不丰富的情况。
当K>=2时，可能多个patch都属于同一目标或者背景。
此方法计算量不大，而且没有需要学习的参数。

计算TK-loss有4个步骤，如下图

在这里插入图片描述

步骤1：
候选patch。
一个N * N的patch, 假设它的中心点坐标为p=(x, y)， $X_{p}^t$ 表示第 t 帧以p为中心点的N * N patch.
现要找到 $\hat{t}$ 帧与 $X_{p}^t$