关注公众号,发现CV技术之美
本文分享一篇 CVPR 2021 论文『Modular Interactive Video Object Segmentation: Interaction-to-Mask, Propagation and Difference-Aware Fusion』,由伊利诺伊大学厄巴纳-香槟分校、香港科技大学联合快手提出模块化交互式 VOS 算法, MiVOS,所需的交互帧数更低,分割精度与运行效率更高。
论文链接:https://arxiv.org/abs/2103.07941
项目链接:https://github.com/hkchengrex/MiVOS
01
前言
本文提出了模块化交互式VOS(MiVOS)框架,该框架将交互到掩码和掩码传播分离,从而实现更高的泛化性和更好的性能。单独训练的交互模块将用户交互转换为对象掩码,然后由传播模块使用一种新的top-k过滤策略在读取时空存储器时进行临时传播。为了有效地考虑用户的意图,提出了一种新颖的差异感知模块,以学习如何在每次交互之前和之后正确融合掩码,这些掩码通过利用时空存储器与目标帧对齐。
与当前现存的交互式VOS方法相比,作者提出的MiVOS所需的交互帧数更低,分割精度与运行效率更高。
与传统的转描方法相比,iVOS的进步显着减少了分割视频中物体标注所需的人力。(从标注100%的帧的Rotoscoping到现在只需标注3%的帧的Decoupled iVOS)。
02 <