2019论文阅读4:Fast and Accurate Online Video Object Segmentation via Tracking Parts

最新推荐文章于 2021-11-25 16:16:37 发布

原创

最新推荐文章于 2021-11-25 16:16:37 发布 · 453 阅读

0 ·

CC 4.0 BY-SA版权

Fast and Accurate Online Video Object Segmentation via Tracking Parts

CVPR 2018

提出的背景：

很多基于CNN的方法都是在第一帧中对对象开始大量的微调，这对在线视频分割来说是耗时的。为此本文的方法是接收图像后立即分割，从而实现在线视频目标分割问题。

难点：

相机运动、对象变形、遮挡和混乱背景。特别地，对于在线应用来说，当方法被要求不访问未来帧时也能有好的鲁棒性和快速性，会出现显著的问题。

现有方法可分为无监督学习和半监督学习：

无监督学习：在无先验信息时对运动对象进行分割，如initial object masks。缺点是不能分割多对象。也有一些要求知道整个视频的信息才能进行分割，不能应用于在线应用。无监督学习的缺点：由于不同实例和动态背景之间的运动混淆，这些无监督的方法无法分割特定的对象。

半监督学习的缺点：通常严重依赖于通过第一帧、数据增强、在线模型适应和光流联合训练对模型进行微调。

解决：为了减轻计算负载的问题，通过在第一帧中通过整个视频传播对象掩码，开发了几种方法。在没有充分利用第一帧信息的情况下，这些方法在长时间传播后会出现错误积累，因而其性能不如其他方法。该算法采用了基于部分的跟踪，并始终通过基于相似性的部分聚集策略来关注第一帧。

目标：

在没有访问未来帧的情况下快速的分割。

贡献：

1、提出了一种适用于在线任务的快速、准确的视频对象分割方法。

2、开发了基于部分的跟踪和基于相似性的聚合方法，在不增加计算负载的情况下，有效地利用第一帧中包含的信息。

3、设计了一个ROI Segnet，它以零件的边界框作为输入，并为每个零件输出分割蒙版。

主要思想：

数据集是DAVIS benchmark dataset（基准数据集）

1、part-based tracking

基于部分的跟踪方法处理如变形、遮挡、背景杂乱等问题；

提出的方法：1、第一帧产生目标提议，基于初始掩码重叠分数选择代表性部分；2、每个部分应用跟踪器，为后续帧提供时间一致的兴趣区域（ROI）。

2、ROI Segmentation

基于被跟踪的零件边界框，构造感兴趣区域分割网络，生成区域掩模；

只要每个部分在下一帧中被定位，构建一个基于CNN的ROI Segnet来预测属于目标对象的分割掩码。ROI Segnet学习在 bounding box 的情况下分割部分对象。

3、Similarity-based Aggregation

通过与第一帧中的视觉信息进行比较，采用基于相似性的评分函数对这些目标部分进行细化。

通过零件跟踪和ROI分割，可以粗略识别物体位置和分割mask。但是，由于跟踪结果不正确，可能会出现误差。为了减少噪声分割部分，通过计算被跟踪部分与初始对象mask之间的特征距离去聚合部件。

![2019-01-23 10-09-24屏幕截图](/home/superior/图片/2019-01-23 10-09-24屏幕截图.png)

算法：

首先，基于零件的跟踪器，其目标是通过整个视频来定位对象部分。其次，构建ROI SegNet，用于预测对象部分的分割结果。第三，通过计算特征空间中的相似度得分，引入部分聚合方法来生成最终的分割结果。

1、基于部件的跟踪器

1.1、如何确定部件

在对象周围随机生成具有各种大小和位置的部分提议，并删除与对象掩码具有低重叠率的部分（计算提议与目标之间的IOU，去除阈值小于0.3的部分）。

为了确保每个部分尽可能多的包含对象的像素，进一步测量得分：$ S_P = \frac{bbox\cap gtbox}{bbox} $其中bbox是提议的边界框，gtbox是第一帧中的已知对象框。 $S_p > 0.7$ 的部分提议被用作非最大抑制（NMS）步骤的候选。这样的目标是将数千个bounding box 减少到只有50〜300个代表性部分。还将每个部件的边界框转换为紧密的目标掩码，从而减少背景噪声，从而实现更有效的跟踪和分割。

1.2、部件追踪

对在frame $ I_t $中满足上述条件的部件组$ \mathcal{P}t={P_t^1,P_t2,…,P_t^i} $。我们希望建立一个打分映射来度量部件$ P_t^i $出现在下一帧$ I{t+1} $中的位置可能性，用函数$ \mathcal{T} $表示该映射 (函数) ，用$ \mathcal{S} _t $表示可能性, 公式表达如下：$ \mathcal{S} t = \mathcal{T}(P_t^i,I{t+1})$

使用SiaFC方法作为我们的基线跟踪器$ \mathcal{T} $来计算得分映射$ \mathcal{S} _t $。由于其完全卷积体系结构，可以计算一次正向传递中多个部分的映射得分。一旦获得分数，我们选择最大响应边界框作为跟踪结果。

2、ROI SegNet

基于上述部件的跟踪结果，现在对bounding box 内的部分对象进行分割。通过裁剪来自部件的图像补丁作为网络输入来利用ROI数据层，其中这些补丁通过调整大小来对齐。类似于语义分割，目标是最小二进制加权交叉熵损失（前景or背景）： $L(P)=−(1−w)∑i,j∈fglogE(yij=1;θ)−w∑i,j∈bglogE(yij=0;θ)\mathcal{L}(P)=-(1-w)\sum_{i,j\in{fg}}log \mathbb{E}(y_{ij}=1;\theta)-w\sum_{i,j\in{bg}}log\mathbb{E}(y_{ij}=0;\theta)$