代码地址:PSPNet
1. 概述
导读:这篇文章使用不同的金字塔池化模块从利用特征全局分类的角度在FCN网络的基础上提出了金字塔分割网络(Pyramid Scene Parsing Network, PSPNet),该网络能够使用全局与局部的信息用于产生最后较高质量的分割。此外,文章还提出了deeply supervised loss来更好优化分割网络(主干网络上的辅助损失函数)。文章提出的PSPNet在VOC-2012数据集上达到85.4,CityScapes数据集上达到80.2。
文章的主要贡献:
- 1)提出了PSPNet,它将困难的场景上下特征嵌入到基于FCN网络中;
- 2)对于ResNet基于deeply supervised loss提出了有效优化策略;
- 3)构建了一个state-of-art的语义分割系统;
下面是使用文章提出的方法进行分割得到的分割示例:

现有分割网络存在的一些问题,如下图所示:

1. Mismatched Relationship
对于一个物体其存在的位置是有其规律的,比如图2第一行中所示的,一辆车是很少会出现在河面上的,这是由于缺少上下文的信息导致错误分类概率增加导致的;
2. Confusion Categories
对于一些具有相似属性的目标会在分割网络结果中存在混淆的现象,如图2中第二行所示。这个问题可以使用类间的关系进行解决;
3. Inconspicuous Classes
对于一些较小的目标在分割任务中难以找到,大目标超出了网络感受野而导致不连续分割的情况,如图2第三行所示。为了提高网络对非常小或非常大的对象的性能,应该注意包含不显著类别的东西的不同子区域。
2. 方法设计
这篇文章提出的Pyramid Pooling Module是由大小为
1
∗
1
,
2
∗
2
,
3
∗
3
,
6
∗
6
1*1,2*2,3*3,6*6
1∗1,2∗2,3∗3,6∗6大小的池化特征组成,其结构见图3中c所示

在图3中采用的是带有膨胀卷积的ResNet作为主干网络去抽取输入图像的特征,经过ResNet的4个stage之后特征的尺寸变为了输入图像的
1
8
\frac{1}{8}
81,之后就是用4个层级的Pyramid Pooling Module覆盖整个特征图获取先验信息,之后融合起来产生最后的分割输出。对于Pyramid Pooling Module的结构见下图所示:

也就是在一个固定的特征上使用不同kernel_size的池化生成先验特征,之后再将这些特征组合起来。这些特征通过上采样保持输出的尺度固定的。这里使用池化的方法(AVE与MAX)带来的结果不同,见下表比较

此外,文章为主干网络添加了辅助损失函数用以帮助训练:

辅助损失函数带来的影响分析:

3. 实验结果
网络深度对分割结果的影响:


VOC数据集上的性能表现:

PSPNet是基于FCN的语义分割网络,通过金字塔池化模块利用全局信息,解决场景理解中的匹配关系、类别混淆和不明显类别问题。在VOC和CityScapes数据集上表现出色,提出的方法包括深监督损失和不同池化策略的比较。
8849

被折叠的 条评论
为什么被折叠?



