《OSVOS：One-Shot Video Object Segmentation》论文笔记

m_buddy

于 2020-03-21 23:58:32 发布

阅读量658

点赞数

CC 4.0 BY-SA版权

分类专栏：图像&视频分割文章标签： OSVOS

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m_buddy/article/details/105020263

《OSVOS：One-Shot Video Object Segmentation》是一篇经典论文，介绍了一种半监督的视频目标分割方法。该方法通过逐帧分割，利用初始帧的标注进行finetune，结合前景分割和轮廓预测，实现了对特定目标的精确分割。虽然未充分利用帧间关系，但即使目标被遮挡也能保持分割效果。网络结构包括前景分割和轮廓预测分支，通过加权交叉熵损失函数优化。实验结果显示，通过调整finetune时间和多帧标注，可在性能和实时性之间取得平衡。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

代码地址：OSVOS-PyTorch

1. 概述

导读：这篇文章是视频分割领域的一篇比较经典的文章，该文章的方法是一种半监督离线化训练的方法，从前景分割分支与轮廓检测分支的结果上获取分割的结果。这篇文章的方法是逐帧进行分割的，因而帧与帧之前相互关系这里并没有运用。总的来说其实现的效果在那个时候还是不错的。下面是其对应的分割效果展示：

文章算法流程图：
在这里插入图片描述
这篇文章的主要贡献可以归纳为：

1）在只给定一个初始图像目标标注的情况下，使得CNN网络适应这个特定的目标。文章的方法首先在类似于ImageNet这样的分类数据集上进行训练得到Base Network；之后在传统分割数据进行训练得到Parent Network；之后在测试的时候就使用第一帧的数据进行finetune得到test network。具体流程见图2所示。这样就有效运用了类别的语义信息、物体或目标的轮廓信息以及特定目标的专有特性信息。
2）文章的另外一个鲜明特点是对目标区域的分割是逐帧分割的，这里是有相邻帧时间差异并不大的前提假设的。这个方法中并没有很好运用到帧间的关系。但是却可以在目标被遮挡之后还能继续分割目标，也算是一个优势；
3）文章的网络可以在性能与实时性方面进行权衡，文章指出有两种可以采取的策略：文章的方法可以在181ms每帧的情况下达到71.5%的性能，而咋7.83s的时候就可以达到79.7%；可以使用多帧的标注数据进行优化，单帧数据标注输入的时候为79.8%，两帧的时候为84.6%，四帧的时候为86.9%。

2. 方法设计

2.1 网络结构

这篇文章的方法在拿到ImageNet预训练模型之后运算过程可以分为两部分：

1）使用DAVIS数据集进行分割网络训练（离线训练），从而使得网络知道“这是目标”，既是区分前景背景；
2）在得到离线训练的模型之后在给定帧与对应的标注基础上进行finetune，从而使得网络知道这是“需要分割的目标”；

总的来讲文章使用到的网络结构有两个（分支），一个负责前景的分割，另外一个负责轮廓的查找。具体见图4所示：
在这里插入图片描述

2.2 端到端的前景分割分支

这里使用的是VGG作为分割网络的backbone，之后再将不同stage上的特征图经过采样到同样尺度融合，从而再在融合的结果上得到分割的结果，其结构见图4中的1部分。

这里使用到的损失函数是2值交叉熵损失函数，但是为了照顾样本不平衡的情况，这里在原始交叉熵的基础按照正负比例进行了加权处理：
$L_{W}=-\beta \sum_{j\in Y_+}logP(y_j=1|X)-(1-\beta)\sum_{j\in Y_-}log(y_j=0|X)$

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。