论文笔记——FEELVOS:Fast End-to-End Embedding Learning for Video Object Segmentation

论文题目:Fast End-to-End Embedding Learning for Video Object Segmentation

论文链接:https://openaccess.thecvf.com/content_CVPR_2019/papers/Voigtlaender_FEELVOS_Fast_End-To-End_Embedding_Learning_for_Video_Object_Segmentation_CVPR_2019_paper.pdf

这是19年cvpr上的一篇文章,主要是做的半监督VOS的task。半监督VOS就是给定视频序列第一帧的mask,然后预测后续frame中该instance的mask的位置。以往一些比较经典的方法,都是要在inference阶段,针对第一帧进行微调。这个做法显然是耗费时间的。

本文提出的FEELVOS不需要在第一帧进行微调,所以可达到fast;模型结构简单,仅采用了一个神经网络(18年Davis挑战赛冠军模型PReMVOS用了四个网络),所以比较simple;针对视频中多个instance,可以end-to-end训练;该模型的J&F值表现不错,可以说是strong。
在这里插入图片描述
上图是FEELVOS的总览图,首先通过deeplabv3(拿掉最后的output层)得到特征图;在后面加入一个embedding层,将feature map映射到embedding空间的向量;根据这个embedding向量,计算两个distance map:分别是local matching和global match,前者利用当前帧和前一帧的embedding,后者利用当前帧和第一帧的embedding,计算各自的distance map。最后将feature map(不是embedding),两个distance map,和前一帧的预测这四部分作为输入,送入dynamic segmentation head(也是一个多层的CNN)。

值得注意的是,需要对第一帧出现的每一个instance进行上述预测。网络实现了对多目标分割的end-to-end训练,并且在embedding方面,并没有显式地用损失函数进行约束,而是作为了一种internal guidance。

下面分别介绍每一部分的细节:

Semantic Embedding

对于deeplabv3(去掉输出层)提取出的feature map,引入到一个embedding layer(深度分离卷积),对特征图上的每一个点,提取其embedding向量。这每一点对应的embedding向量代表着该点的类别信息。如果两个pixel属于同一类别,那么两个pixel对应的embedding向量之间的距离就比较近;如果两个pixel不属于同一类别,那么对应的embedding向量之间的距离就会比较远。这个距离的定义如下:
在这里插入图片描述
该距离在0-1之间。其中p表示当前帧的特征图pixel,而q表示之前帧特征图的pixel(第一帧的或是前一帧的)。在定义出embedding向量的距离以后,我们就可以求解两个distance map了。当q表示第一帧的某像素时,就可以求解global matching;当q表示前面一帧的时候,此时可以求解local matching。

Global Matching

假设PtP_{t}

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值