2019论文阅读4:Fast and Accurate Online Video Object Segmentation via Tracking Parts

Fast and Accurate Online Video Object Segmentation via Tracking Parts

CVPR 2018

提出的背景:

很多基于CNN的方法都是在第一帧中对对象开始大量的微调,这对在线视频分割来说是耗时的。为此本文的方法是接收图像后立即分割,从而实现在线视频目标分割问题。

难点:

相机运动、对象变形、遮挡和混乱背景。特别地,对于在线应用来说,当方法被要求不访问未来帧时也能有好的鲁棒性和快速性,会出现显著的问题。

现有方法可分为无监督学习和半监督学习:

无监督学习:在无先验信息时对运动对象进行分割,如initial object masks。缺点是不能分割多对象。也有一些要求知道整个视频的信息才能进行分割,不能应用于在线应用。无监督学习的缺点:由于不同实例和动态背景之间的运动混淆,这些无监督的方法无法分割特定的对象。

半监督学习的缺点:通常严重依赖于通过第一帧、数据增强、在线模型适应和光流联合训练对模型进行微调。

解决:为了减轻计算负载的问题,通过在第一帧中通过整个视频传播对象掩码,开发了几种方法。在没有充分利用第一帧信息的情况下,这些方法在长时间传播后会出现错误积累,因而其性能不如其他方法。该算法采用了基于部分的跟踪,并始终通过基于相似性的部分聚集策略来关注第一帧。

目标:

在没有访问未来帧的情况下快速的分割。

贡献:

1、提出了一种适用于在线任务的快速、准确的视频对象分割方法。

2、开发了基于部分的跟踪和基于相似性的聚合方法,在不增加计算负载的情况下,有效地利用第一帧中包含的信息。

3、设计了一个ROI Segnet,它以零件的边界框作为输入,并为每个零件输出分割蒙版。

主要思想:

数据集是DAVIS benchmark dataset(基准数据集)

1、part-based tracking

基于部分的跟踪方法处理如变形、遮挡、背景杂乱等问题;

提出的方法:1、第一帧产生目标提议,基于初始掩码重叠分数选择代表性部分;2、每个部分应用跟踪器,为后续帧提供时间一致的兴趣区域(ROI)。

2、ROI Segmentation

基于被跟踪的零件边界框,构造感兴趣区域分割网络,生成区域掩模;

只要每个部分在下一帧中被定位,构建一个基于CNN的ROI Segnet来预测属于目标对象的分割掩码。ROI Segnet学习在 bounding box 的情况下分割部分对象。

3、Similarity-based Aggregation

通过与第一帧中的视觉信息进行比较,采用基于相似性的评分函数对这些目标部分进行细化。

通过零件跟踪和ROI分割,可以粗略识别物体位置和分割mask。但是,由于跟踪结果不正确,可能会出现误差。为了减少噪声分割部分,通过计算被跟踪部分与初始对象mask之间的特征距离去聚合部件。

![2019-01-23 10-09-24屏幕截图](/home/superior/图片/2019-01-23 10-09-24屏幕截图.png)

算法:

首先,基于零件的跟踪器,其目标是通过整个视频来定位对象部分。 其次,构建ROI SegNet,用于预测对象部分的分割结果。第三,通过计算特征空间中的相似度得分,引入部分聚合方法来生成最终的分割结果。

1、基于部件的跟踪器
1.1、如何确定部件

在对象周围随机生成具有各种大小和位置的部分提议,并删除与对象掩码具有低重叠率的部分(计算提议与目标之间的IOU,去除阈值小于0.3的部分)。

为了确保每个部分尽可能多的包含对象的像素,进一步测量得分:$ S_P = \frac{bbox\cap gtbox}{bbox} $其中bbox是提议的边界框,gtbox是第一帧中的已知对象框。 Sp>0.7S_p > 0.7Sp>0.7的部分提议被用作非最大抑制(NMS)步骤的候选。这样的目标是将数千个bounding box 减少到只有50〜300个代表性部分。还将每个部件的边界框转换为紧密的目标掩码,从而减少背景噪声,从而实现更有效的跟踪和分割。

1.2、部件追踪

对在frame $ I_t 中满足上述条件的部件组中满足上述条件的部件组 \mathcal{P}t={P_t1,P_t2,…,P_t^i}。我们希望建立一个打分映射来度量部件。我们希望建立一个打分映射来度量部件 P_t^i出现在下一帧出现在下一帧 I{t+1}中的位置可能性,用函数中的位置可能性,用函数 \mathcal{T} 表示该映射(函数),用表示该映射(函数),用() \mathcal{S} _t 表示可能性,公式表达如下:表示可能性,公式表达如下:,\mathcal{S} t = \mathcal{T}(P_t^i,I{t+1})$

使用SiaFC方法作为我们的基线跟踪器$ \mathcal{T} 来计算得分映射来计算得分映射 \mathcal{S} _t $。由于其完全卷积体系结构,可以计算一次正向传递中多个部分的映射得分。 一旦获得分数,我们选择最大响应边界框作为跟踪结果。

2、ROI SegNet

基于上述部件的跟踪结果,现在对bounding box 内的部分对象进行分割。通过裁剪来自部件的图像补丁作为网络输入来利用ROI数据层,其中这些补丁通过调整大小来对齐。类似于语义分割,目标是最小二进制加权交叉熵损失(前景or背景):L(P)=−(1−w)∑i,j∈fglogE(yij=1;θ)−w∑i,j∈bglogE(yij=0;θ)\mathcal{L}(P)=-(1-w)\sum_{i,j\in{fg}}log \mathbb{E}(y_{ij}=1;\theta)-w\sum_{i,j\in{bg}}log\mathbb{E}(y_{ij}=0;\theta)L(P)=(1w)i,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值