论文速递 | 实例分割算法BlendMask，实时又state-of-the-art

最新推荐文章于 2025-01-21 20:08:57 发布

原创

最新推荐文章于 2025-01-21 20:08:57 发布 · 8.6k 阅读

40 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #深度学习 #机器学习 #人工智能 #神经网络

BlendMask是一种先进的实例分割模型，结合了top-down和bottom-up的方法，通过blender模块整合高低维特征，达到41.3AP的精度，实时版本速度达25FPS。

BlendMask通过更合理的blender模块融合top-level和low-level的语义信息来提取更准确的实例分割特征，该模型效果达到state-of-the-art，但结构十分精简，推理速度也不慢，精度最高能到41.3AP，实时版本BlendMask-RT性能和速度分别为34.2mAP和25FPS，并且论文的优化方法很有学习的价值，值得一读

论文:BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation

论文地址：https://arxiv.org/abs/2001.00309

Introduction

密集实例分割模型早期主要有两种，top-down apporach和bottom-up apporach

top-down apporach

top-down模型先通过一些方法获取box区域，然后对区域内的像素进行mask提取，这种模型一般有以下几个问题：

特征和mask之间的局部一致性会丢失，论文讨论的是Deep-Mask，用fc来提出mask
冗余的特征提取，不同的bbox会重新提取一次mask
由于使用了缩小特征图的卷积，位置信息会损失

bottom-up apporach

bottom-up模型先对整图进行逐像素预测(per-pixel prediction)，每个像素生成一个特征向量，然后通过一些方法来对像素进行分组。由于进行的是逐像素级预测且步长很小，局部一致性和位置信息可以很好的保存，但是依然存在以下几个问题：

严重依赖逐像素预测的质量，容易导致非最优的分割
由于mask在低维提取，对于复杂场景(类别多)的分割能力有限
需要复杂的后处理方法

hybridizing apporach

考虑到上面的问题，论文综合了top-down和bottom-up的策略，利用instance-level信息(bbox)对per-pixel prediction进行裁剪和加权输出。虽然FCIS和YOLACT已有类似的思想，但论文认为他们都没有很好的处理top-level和bottom-level的特征，高维特征包含整体的instance信息，而低维特征的则保留了更好的位置信息，论文的重点在于研究如何合并高低维特征，主要贡献有以下几点：

提出了proposal-based的instance mask合并方法，blender，在COCO上对比YOLACT和FCIS的合并方法分别提升了1.9和1.3mAP
基于FCOS提出简洁的算法网络BlendMask
BlendMask的推理时间不会像二阶检测器一样随着预测数量的增加而增加
BlendMask的准确率和速度比Mask R-CNN要好，且mask mAP比最好的全卷积实例分割网络Tensor-Mask要高1.1
由于bottom模块能同时分割多种物体，BlendMask可直接用于全景分割
Mask R-CNN的mask输出固定为 $28\times 28$ ，BlendMask的mask输出像素可以很大，且不受FPN的限制
BlendMask通用且灵活，只要一些小修改，就可以用于其它instance-level识别任务中，例如关键点检测

Our methods

Overall pipeline

BlendMask包含检测网络和mask分支，mask分支包含3个部分，bottom module用于预测score maps，top layer用于预测实例的attentions，blender module用于整合分数以及attentions，整体的架构如图2所示

Bottom module

bottom module预测的score maps在文中称为基底(base) $B$ 。 $B$ 的大小为 $N\times K\times \frac{H}{s}\times \frac{W}{s}$ ，其中N为batch size，K为基底的数量， $H\times W$ 是输入的大小，而 $s$ 则是score maps的输出步长。

DeepLab V3+

论文采用DeepLab V3+的decoder，该decoder包含两个输入，一个低层特征和一个高层特征，对高层特征进行upsample后与低层特征融合输出。这里使用别的结构也是可以的，而bottom module的输入可以是backbone的feature，也可以是类似YOLACT或Panoptic FPN的特征金字塔