《PSPNet：Pyramid Scene Parsing Network》论文笔记

最新推荐文章于 2025-10-22 15:25:10 发布

原创最新推荐文章于 2025-10-22 15:25:10 发布 · 1.8k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#PSPNet

图像&视频分割专栏收录该内容

65 篇文章

订阅专栏

PSPNet是基于FCN的语义分割网络，通过金字塔池化模块利用全局信息，解决场景理解中的匹配关系、类别混淆和不明显类别问题。在VOC和CityScapes数据集上表现出色，提出的方法包括深监督损失和不同池化策略的比较。

部署运行你感兴趣的模型镜像

代码地址：PSPNet

1. 概述

导读：这篇文章使用不同的金字塔池化模块从利用特征全局分类的角度在FCN网络的基础上提出了金字塔分割网络（Pyramid Scene Parsing Network， PSPNet），该网络能够使用全局与局部的信息用于产生最后较高质量的分割。此外，文章还提出了deeply supervised loss来更好优化分割网络（主干网络上的辅助损失函数）。文章提出的PSPNet在VOC-2012数据集上达到85.4，CityScapes数据集上达到80.2。

文章的主要贡献：

1）提出了PSPNet，它将困难的场景上下特征嵌入到基于FCN网络中；
2）对于ResNet基于deeply supervised loss提出了有效优化策略；
3）构建了一个state-of-art的语义分割系统；

下面是使用文章提出的方法进行分割得到的分割示例：
在这里插入图片描述
现有分割网络存在的一些问题，如下图所示：

1. Mismatched Relationship
对于一个物体其存在的位置是有其规律的，比如图2第一行中所示的，一辆车是很少会出现在河面上的，这是由于缺少上下文的信息导致错误分类概率增加导致的；
2. Confusion Categories
对于一些具有相似属性的目标会在分割网络结果中存在混淆的现象，如图2中第二行所示。这个问题可以使用类间的关系进行解决；
3. Inconspicuous Classes
对于一些较小的目标在分割任务中难以找到，大目标超出了网络感受野而导致不连续分割的情况，如图2第三行所示。为了提高网络对非常小或非常大的对象的性能，应该注意包含不显著类别的东西的不同子区域。

2. 方法设计

这篇文章提出的Pyramid Pooling Module是由大小为 $1 * 1, 2 * 2, 3 * 3, 6 * 6$ 大小的池化特征组成，其结构见图3中c所示
在这里插入图片描述
在图3中采用的是带有膨胀卷积的ResNet作为主干网络去抽取输入图像的特征，经过ResNet的4个stage之后特征的尺寸变为了输入图像的 $\frac{1}{8}$ ，之后就是用4个层级的Pyramid Pooling Module覆盖整个特征图获取先验信息，之后融合起来产生最后的分割输出。对于Pyramid Pooling Module的结构见下图所示：
在这里插入图片描述
也就是在一个固定的特征上使用不同kernel_size的池化生成先验特征，之后再将这些特征组合起来。这些特征通过上采样保持输出的尺度固定的。这里使用池化的方法（AVE与MAX）带来的结果不同，见下表比较
在这里插入图片描述
此外，文章为主干网络添加了辅助损失函数用以帮助训练：

辅助损失函数带来的影响分析：