CVPR20的实例分割文章,Kaiming老师出品。
Motivation
Mask RCNN一类的实例分割模型得到的mask分辨率太低,因此导致了mask非常粗糙。为了解决这个问题,作者希望在Mask RCNN预测出粗糙的mask以后,对其进行refine。受图形学中rendering的启发,作者提出了PointRend模型。本质上属于一种新型的上采样方法,通过在mask边缘采样一系列hard的点,逐渐对边缘进行优化,最终得到分辨率高的mask。个人感觉与图形学中的渲染结合有点说故事的味道,完全可以抛开rendering的概念来理解。
Method
整体的思路大致如下:在粗糙的mask上面select出若干个边缘处的点(容易出错的点都处于mask边缘),通过将融合这些点的高层特征(coarse feature)和低层特征(fine-frained feature),经过一个MLP得到新的预测。因此核心有三个部分:(1)点的选取策略;(2)对于每个选取的点,如何提取point-wise的特征;(3)提取了每个点的特征以后,需要一个MLP(point head)对每个点进行分类。
Point Selection for Inference and Training
点的自适应选取在training和inference阶段是不同的,首先是Inference阶段: