论文笔记——FEELVOS：Fast End-to-End Embedding Learning for Video Object Segmentation

最新推荐文章于 2023-09-25 18:13:14 发布

原创

最新推荐文章于 2023-09-25 18:13:14 发布 · 1k 阅读

3 ·

CC 4.0 BY-SA版权

论文题目：Fast End-to-End Embedding Learning for Video Object Segmentation

论文链接：https://openaccess.thecvf.com/content_CVPR_2019/papers/Voigtlaender_FEELVOS_Fast_End-To-End_Embedding_Learning_for_Video_Object_Segmentation_CVPR_2019_paper.pdf

这是19年cvpr上的一篇文章，主要是做的半监督VOS的task。半监督VOS就是给定视频序列第一帧的mask，然后预测后续frame中该instance的mask的位置。以往一些比较经典的方法，都是要在inference阶段，针对第一帧进行微调。这个做法显然是耗费时间的。

本文提出的FEELVOS不需要在第一帧进行微调，所以可达到fast；模型结构简单，仅采用了一个神经网络（18年Davis挑战赛冠军模型PReMVOS用了四个网络），所以比较simple；针对视频中多个instance，可以end-to-end训练；该模型的J&F值表现不错，可以说是strong。
在这里插入图片描述
上图是FEELVOS的总览图，首先通过deeplabv3（拿掉最后的output层）得到特征图；在后面加入一个embedding层，将feature map映射到embedding空间的向量；根据这个embedding向量，计算两个distance map：分别是local matching和global match，前者利用当前帧和前一帧的embedding，后者利用当前帧和第一帧的embedding，计算各自的distance map。最后将feature map（不是embedding），两个distance map，和前一帧的预测这四部分作为输入，送入dynamic segmentation head（也是一个多层的CNN）。

值得注意的是，需要对第一帧出现的每一个instance进行上述预测。网络实现了对多目标分割的end-to-end训练，并且在embedding方面，并没有显式地用损失函数进行约束，而是作为了一种internal guidance。

下面分别介绍每一部分的细节：

Semantic Embedding

对于deeplabv3（去掉输出层）提取出的feature map，引入到一个embedding layer（深度分离卷积），对特征图上的每一个点，提取其embedding向量。这每一点对应的embedding向量代表着该点的类别信息。如果两个pixel属于同一类别，那么两个pixel对应的embedding向量之间的距离就比较近；如果两个pixel不属于同一类别，那么对应的embedding向量之间的距离就会比较远。这个距离的定义如下：
在这里插入图片描述
该距离在0-1之间。其中p表示当前帧的特征图pixel，而q表示之前帧特征图的pixel（第一帧的或是前一帧的）。在定义出embedding向量的距离以后，我们就可以求解两个distance map了。当q表示第一帧的某像素时，就可以求解global matching；当q表示前面一帧的时候，此时可以求解local matching。