论文链接:https://arxiv.org/abs/1901.02446
非官方复现代码:https://github.com/Ixuanzhang/panoptic-fpn-gluon
0. 摘要
当下用于语义分割和实例分割的方法使用的是完全不同的网络,二者之间没有很好的共享计算,该论文通过赋使用特征金字塔(FPN)的Mask R-CNN一个语义分割分支,在架构层面将这两种方法结合成一个单一网络来同时完成实例分割和语义分割的任务。
1. 介绍
该论文的目标是设计一个相对简单的单一网络来进行全景分割,即一种同时进行实例分割(for thing classes)和语义分割(for stuff classes)的分割任务,然而设计这样的一个网络面临着很大的挑战。对于语义分割任务来说,空洞卷积扩充的FCNs是目前主流的方法;对于实例分割来说,带有特征金字网络的基于区域提议的Mask R-CNN则比较常见。该论文避免了在两个任务各自的精度上做取舍,设计的模型能够同时产生实例分割中的区块输出和语义分割中的像素密集输出。
论文提出的模型结构如上图,保持FPN主干网络不变,在这个主干的基础上新增一个与实例分割分支并行的分支进行语义分割。要得到一个好的结果,同时合理训练两个分支是至关重要的。作者在如何平衡两个分支的损失函数,训练批次,学习率,数据增广等多方面进行了研究。
最终发现在coco数据集和Cityscapes数据集上,单独对每个分支进行训练最终会得到非常好的结果。实例分割效果和Mask R-CNN相同,附加在FPN后的dense-prediction(稠密预测)分支(即语义分割)的效果与重量级的模型DeepLabV3+相近。
对于全景分割来说,适当的训练单个FPN来同时解决两个问题和训练两个FPNs的效果相同,前者还能减少一半的计算量。Panoptic FPN在Mask R-CNN上加了一个轻量级的前端,内存占用和计算量上都非常高效,而且避免了使用空洞卷积。论文也可以移植使用不同的主干网络(backbone)来获得更好的性能,比如ResNeXt。
2、相关工作
2.1 全景分割(Panoptic segmentation)
stuff的语义分割和thing的实例分割的联合,成为了全景分割中的一个新的热点。本论文的任务是设计一个对两个任务都有效的single network,作为未来全景分割的一个baseline。
2.2 实例分割(Instance segmentation)
基于区域(region-based)的目标检测方法包括:Slow/Fast/ Faster / Mask R-CNN,这些都是应用deep networks去生成候选物体区域,这些已被证明很成功。带有FPN的Mask R-CNN获得了最近两年(2017、2018年)COCO检测挑战的winner。最近的一些新的创新:Cascade R-CNN、deformable convolution 、