目录
1. Title
2. Summary
本文通过将人工交互和mask传播两个子任务解耦,一方面扩展了用户交互形式的多样性,另一方面也降低了模型训练的难度,提升了性能和速度。
本文的一个重要观点是:应该直到用户获得了一个满意的mask后,再将该mask送入费时的传播模块中,这个交互过程可以进行多个轮次;不同轮次间输出的mask的差异,即为用户的指示信息,利用这个信息可以提升网络性能。
在Interaction模块中,通过多次交互,可以获得一个用户满意的mask,同时在训练过程中,通过设定existing mask的有无,来模拟Initial Interaction和Correction Interaction两种情况,提升了网络的泛化性能。
在Propagation模块中,通过双向独立传播,完成了整个视频序列的mask生成。
在Fusion模块,通过对比用户修正前后的修正帧预测mask的差异,捕获用户的指示信息,并通过Memory Bank,将其对齐至其他待处理帧中,提升了其他帧的分割性能。
3. Problem Statement
VOS分割的目标是较为广义的目标,并不是针对某个类别进行分割,即和一般的语义分割存在差异。一般根据是否需要额外的mask信息可以分为三类:
- 半监督VOS:在训练和推理过程中,除了提供要分割的视频帧序列外,还会额外提供部分视频帧的真实mask标注,一般是第一帧的mask。
- 无监督VOS:在训练和推理过程中,除了提供要分割的视频帧序列外,不会额外提供任何额外的mask标注信息。
- 半监督VOS:在训练和推理过程中,会交互式地提供一些类似于涂鸦的信息用于指示模型生成mask。
本文要解决的问题的领域即为Interactive VOS,也就是半监督VOS,目标是提升其泛化性和性能。
IVOS任务可以看做是两个子任务的结合:
- Interaction Understanding,即从交互中生成Mask。
- Temporal Propagation,即半监督VOS。
目前的方法使用Interconnected Encoders或者是Memory-Augmented Interaction Features联合完成两个任务,这种耦合性限制了用户的交互形式,并且模型需要同时理解用户的输入并将其逐帧进行传播,这使得训练较为困难。
而直接解耦两个任务,传播过程中由于缺乏考虑用户的指示信息,导致性能的下降。
4. Method(s)
为了解决以上问题,本文提出了一种解耦的模块化的Framework用于解决IVOS问题。
考虑到简单的解耦两个任务会导致在传播阶段缺失用户的指示,本文提出了一个Difference-Aware Fusion Module用于建模在经过用户指示前后生成的mask的差异。
<
论文介绍了一种解耦的模块化框架,通过将人工交互和mask传播分开,增强交互多样性并简化模型训练。关键创新在于Difference-Aware Fusion模块,捕捉用户指示以提升VOS性能和速度。研究集中在Interactive VOS领域,特别是半监督VOS,通过实例化用户反馈和智能传播策略改善任务泛化。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



