《Efficient Regional Memory Network for Video Object Segmentation》论文阅读笔记

最新推荐文章于 2021-12-09 14:59:27 发布

原创最新推荐文章于 2021-12-09 14:59:27 发布 · 530 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #人工智能

语义分割_论文阅读笔记专栏收录该内容

5 篇文章

订阅专栏

《Efficient Regional Memory Network for Video Object Segmentation》论文阅读笔记

论文链接：https://arxiv.org/pdf/2103.12934.pdf
GitHub地址：https://haozhexie.com/project/rmnet

1.摘要

最近，一些基于时空记忆的网络表明，过去帧中的物体线索（如视频帧以及分割后的物体掩码）对于分割当前帧中的物体很有用。然而，这些方法都是以全局到全局（Global-to-Global Matching）的方式对当前帧和过去帧和过去帧之间进行匹配的，这就会导致相似目标的错误匹配和高复杂的计算量。为了解决这个问题，作者提出从局部到局部（Local-to-Local Matching）的方式匹配当前帧和过去帧用于半监督视频分割任务中（semi-supervised VOS），并命名为Regional Memory Net- work (RMNet)。
这篇论文的方法可以看作是在《Video Object Segmentation using Space-Time Memory Networks》（这篇文章的思想可以点击链接进行查看）文章的基础上进行的改进。主要改进有两个方面：1.时空记忆模块只保存目标区域；2.当前帧和之前帧之间的匹配计算只计算目标所在区域，文章中确定目标区域使用框的方式，类似于目标检测中的检测框完成的；3.时空记忆模块只保存前一帧的结果（应该是这样），4.增加一个TinyFlowNet生成光流信息用于将前一帧的mask转换到当前帧。

Global-to-Global的错误匹配示例和Local-to-Local可以正确匹配的示例如下图所示：

从左图红色实线和红色虚线可以看到，当从全局的角度对两帧进行目标匹配时，很容易将外形相似的目标匹配到一起，导致错误的匹配目标。所以作者提出，相邻的帧之间目标的移动范围是较小的，因此使用局部相近位置进行匹配会大大提升匹配的准确性，如右图所示。

2.实现方法

网络结构

网络整体架构在论文《Video Object Segmentation using Space-Time Memory Networks》基础上增加了一个TinyFlowNet网络生成光流信息用于将前一帧的mask转换到当前帧。Memory encoder中只保存目标区域位置的信息，可以有效的减少运算量并且可以避免目标的错误匹配。