2021-Modular Interactive Video Object Segmentation

论文介绍了一种解耦的模块化框架,通过将人工交互和mask传播分开,增强交互多样性并简化模型训练。关键创新在于Difference-Aware Fusion模块,捕捉用户指示以提升VOS性能和速度。研究集中在Interactive VOS领域,特别是半监督VOS,通过实例化用户反馈和智能传播策略改善任务泛化。

目录

1. Title

2. Summary

3. Problem Statement

4. Method(s)

(1)MiNet Overview

Interaction-to-Mask

Temporal Propagation

Difference-Aware Fusion

(2)Dataset:BL30k

5. Evaluation

(1)结果对比

(2)消融实验

6. Conclusion


1. Title

Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion

2. Summary

本文通过将人工交互和mask传播两个子任务解耦,一方面扩展了用户交互形式的多样性,另一方面也降低了模型训练的难度,提升了性能和速度。

本文的一个重要观点是:应该直到用户获得了一个满意的mask后,再将该mask送入费时的传播模块中,这个交互过程可以进行多个轮次;不同轮次间输出的mask的差异,即为用户的指示信息,利用这个信息可以提升网络性能。

在Interaction模块中,通过多次交互,可以获得一个用户满意的mask,同时在训练过程中,通过设定existing mask的有无,来模拟Initial Interaction和Correction Interaction两种情况,提升了网络的泛化性能。

在Propagation模块中,通过双向独立传播,完成了整个视频序列的mask生成。

在Fusion模块,通过对比用户修正前后的修正帧预测mask的差异,捕获用户的指示信息,并通过Memory Bank,将其对齐至其他待处理帧中,提升了其他帧的分割性能。

3. Problem Statement

VOS分割的目标是较为广义的目标,并不是针对某个类别进行分割,即和一般的语义分割存在差异。一般根据是否需要额外的mask信息可以分为三类:

  • 半监督VOS:在训练和推理过程中,除了提供要分割的视频帧序列外,还会额外提供部分视频帧的真实mask标注,一般是第一帧的mask。
  • 无监督VOS:在训练和推理过程中,除了提供要分割的视频帧序列外,不会额外提供任何额外的mask标注信息。
  • 半监督VOS:在训练和推理过程中,会交互式地提供一些类似于涂鸦的信息用于指示模型生成mask。

本文要解决的问题的领域即为Interactive VOS,也就是半监督VOS,目标是提升其泛化性和性能。

IVOS任务可以看做是两个子任务的结合:

  • Interaction Understanding,即从交互中生成Mask。
  • Temporal Propagation,即半监督VOS。

目前的方法使用Interconnected Encoders或者是Memory-Augmented Interaction Features联合完成两个任务,这种耦合性限制了用户的交互形式,并且模型需要同时理解用户的输入并将其逐帧进行传播,这使得训练较为困难

而直接解耦两个任务,传播过程中由于缺乏考虑用户的指示信息,导致性能的下降

4. Method(s)

为了解决以上问题,本文提出了一种解耦的模块化的Framework用于解决IVOS问题。

考虑到简单的解耦两个任务会导致在传播阶段缺失用户的指示,本文提出了一个Difference-Aware Fusion Module用于建模在经过用户指示前后生成的mask的差异。

<
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值