论文速递 | 实例分割算法BlendMask,实时又state-of-the-art

BlendMask是一种先进的实例分割模型,结合了top-down和bottom-up的方法,通过blender模块整合高低维特征,达到41.3AP的精度,实时版本速度达25FPS。

BlendMask通过更合理的blender模块融合top-level和low-level的语义信息来提取更准确的实例分割特征,该模型效果达到state-of-the-art,但结构十分精简,推理速度也不慢,精度最高能到41.3AP,实时版本BlendMask-RT性能和速度分别为34.2mAP和25FPS,并且论文的优化方法很有学习的价值,值得一读

论文:BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation

Introduction


  密集实例分割模型早期主要有两种,top-down apporach和bottom-up apporach

top-down apporach

  top-down模型先通过一些方法获取box区域,然后对区域内的像素进行mask提取,这种模型一般有以下几个问题:

  • 特征和mask之间的局部一致性会丢失,论文讨论的是Deep-Mask,用fc来提出mask
  • 冗余的特征提取,不同的bbox会重新提取一次mask
  • 由于使用了缩小特征图的卷积,位置信息会损失
bottom-up apporach

  bottom-up模型先对整图进行逐像素预测(per-pixel prediction),每个像素生成一个特征向量,然后通过一些方法来对像素进行分组。由于进行的是逐像素级预测且步长很小,局部一致性和位置信息可以很好的保存,但是依然存在以下几个问题:

  • 严重依赖逐像素预测的质量,容易导致非最优的分割
  • 由于mask在低维提取,对于复杂场景(类别多)的分割能力有限
  • 需要复杂的后处理方法
hybridizing apporach

  考虑到上面的问题,论文综合了top-down和bottom-up的策略,利用instance-level信息(bbox)对per-pixel prediction进行裁剪和加权输出。虽然FCIS和YOLACT已有类似的思想,但论文认为他们都没有很好的处理top-level和bottom-level的特征,高维特征包含整体的instance信息,而低维特征的则保留了更好的位置信息,论文的重点在于研究如何合并高低维特征,主要贡献有以下几点:

  • 提出了proposal-based的instance mask合并方法,blender,在COCO上对比YOLACT和FCIS的合并方法分别提升了1.9和1.3mAP
  • 基于FCOS提出简洁的算法网络BlendMask
  • BlendMask的推理时间不会像二阶检测器一样随着预测数量的增加而增加
  • BlendMask的准确率和速度比Mask R-CNN要好,且mask mAP比最好的全卷积实例分割网络Tensor-Mask要高1.1
  • 由于bottom模块能同时分割多种物体,BlendMask可直接用于全景分割
  • Mask R-CNN的mask输出固定为 28 × 28 28\times 28 28×28,BlendMask的mask输出像素可以很大,且不受FPN的限制
  • BlendMask通用且灵活,只要一些小修改,就可以用于其它instance-level识别任务中,例如关键点检测

Our methods


Overall pipeline

  BlendMask包含检测网络和mask分支,mask分支包含3个部分,bottom module用于预测score maps,top layer用于预测实例的attentions,blender module用于整合分数以及attentions,整体的架构如图2所示

  • Bottom module

  bottom module预测的score maps在文中称为基底(base) B B B B B B的大小为 N × K × H s × W s N\times K\times \frac{H}{s}\times \frac{W}{s} N×K×sH×sW,其中N为batch size,K为基底的数量, H × W H\times W H×W是输入的大小,而 s s s则是score maps的输出步长。

DeepLab V3+

  论文采用DeepLab V3+的decoder,该decoder包含两个输入,一个低层特征和一个高层特征,对高层特征进行upsample后与低层特征融合输出。这里使用别的结构也是可以的,而bottom module的输入可以是backbone的feature,也可以是类似YOLACT或Panoptic FPN的特征金字塔

  • Top Layer

  在每一个detection tower后接了一层卷积层用来预测top-level attentions A A A。 在YOLACT中,每一层金字塔( H l × W l H_l\times W_l Hl

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值