论文笔记——OSVOS:One-Shot Video Object Segmentation

第一次看视频目标分割(Video Object Segmentation, VOS)的论文,选择了这篇比较经典的论文。

论文链接:https://openaccess.thecvf.com/content_cvpr_2017/papers/Caelles_One-Shot_Video_Object_CVPR_2017_paper.pdf

VOS问题大多是半监督问题,即给定某视频第一帧的mask,对于第一帧中标注的instance,预测接下来所有帧中的mask。例如下图中,第一帧给定了一个人的mask标注(红色区域),其任务是预测接下来每一帧中,这个人的mask(绿色区域)。
在这里插入图片描述
该篇论文的主要贡献有以下三点:

(1)把一个在图像识别上预训练好的CNN模型,迁移到VOS任务中。首先是做预训练得到一个用于图像识别的模型,接着对该模型进行改造,并在人工分割的视频数据集上进行训练。最后在测试阶段,基于第一帧的标注mask,对模型进行微调。

(2)OSVOS独立地处理视频中每一帧,因为物体在帧之间的变化一般不会太大,这与主流的考虑时间连续性的方法不同。虽然那些考虑时间连续性的方法在连续帧上取得了不错的表现,但是对于遮挡或者剧烈的移动,会造成偏差,并且这个偏差会随着时间的推移而逐渐累积放大;同时,如果考虑motion estimation,就需要用到光流这类方法,这也是一个困难的问题。作者证明深度学习方法独立地处理每一帧,也可以达到很好的效果,所以OSVOS就可以避免时序上错误的累积,如一些遮挡等问题。

(3)OSVOS可实现速度和精度上的trade off,在给定第一帧的mask后,用户可以选择快速的模式和精确的模式,以进行fine-tune。每帧处理181ms可得71.5%的准确率,而每帧处理7.85s时可达79.5%的准确率。此外用户可以进行更多的标注来进一步提升准确率。

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值