论文阅读《Look Closer to Segment Better: Boundary Patch Refinement for Instance Segmentation》

BPR: 边界细化网络

最新推荐文章于 2024-09-24 09:46:42 发布

原创最新推荐文章于 2024-09-24 09:46:42 发布 · 1.9k 阅读

12 ·

CC 4.0 BY-SA版权

实例分割专栏收录该内容

12 篇文章

订阅专栏

针对Mask R-CNN预测的mask边界粗糙问题，本文介绍了一种crop-and-refine策略。通过提取边界上的patch并利用Refinement Network优化，显著提高了mask分辨率与边界质量。

论文链接：https://arxiv.org/pdf/2104.05239.pdf

Motivation

CVPR21上一篇关于实例分割的文章。对于Mask RCNN来说，其最终得到的mask分辨率太低，因此还原到原尺寸的时候，一些boundary信息就显得非常粗糙，导致预测生成的mask效果不尽如人意。而且处于boundary的pixel本身数量相比于整张image来说很少，同时本身难以做分类。现有的一些方法试图提升boundary quality，但预测mask边界这个task本身的复杂度和segmentation很接近了，因此开销较大。

因此本文作者提出了一种crop-and-refine的策略。首先通过经典的实例分割网络（如Mask RCNN）得到coarse mask。随后在mask的boundary出提取出一系列的patch，随后将这些patch送入一个Refinement Network，这个Refinement Network负责做二分类的语义分割，进而对boundary处的patch进行优化，整个后处理的优化网络称为BPR（Boundary Patch Refinement）。该网络可以解决传统Mask RCNN预测的mask的边界粗糙的问题。

Framework

在这里插入图片描述
本文的核心就是在Mask RCNN一类的网络给出coarse mask后，如何设计Refine Network来对这个粗糙mask的边界进行优化，进而得到resolution更高，boundary quality更好的mask。

给定一个coarse mask（上图a），首先需要决定这个mask的哪些部分要做refine。这里作者提出了一种sliding-window式的方法提取到boundary处的一系列patch（上图b）。具体来说，就是在mask边界处密集assign正方形的bounding box，这些box内部囊括了boundary pixel。随后，由于这些box有的overlap太大导致redundant，这里采用NMS进行过滤（上图c），以实现速度和精度的trade-off。

随后这些survive下来的image patch（上图d）和mask patch（上图e）都resize到同一尺寸，一起喂入Refinement Network。这里作者argue说一定要喂入mask patch，因为一旦拥有mask patch的location和semantic信息，这个refinement network就不再需要学习instance-level semantic了。所以，refinement network只需要学习boundary处的hard pixel，并把它们正确分类。

关于Refinement Network，其任务是为每一个提取出来的boundary patch独立地做二分类语义分割，任何的语义分割模型都可以搬过来做这个task。输入的通道数为4（RGB+mask），输出通道数为2（BG or FG），这里作者采用了HRNetV2，这种各种level feature不断做融合的网络可以maintain高分辨率的representation。通过合理的增加input size，boundary batch就可以得到比之前方法更高的resolution。

在对每个patch独立地refine以后，需要将它们reassemble到coarse mask上面。有的相邻的patch可能存在overlap的情况，最终的结果是取平均，以0.5作为阈值判断某个pixel属于前景或是背景。