《PSPNet:Pyramid Scene Parsing Network》论文笔记

PSPNet是基于FCN的语义分割网络,通过金字塔池化模块利用全局信息,解决场景理解中的匹配关系、类别混淆和不明显类别问题。在VOC和CityScapes数据集上表现出色,提出的方法包括深监督损失和不同池化策略的比较。
部署运行你感兴趣的模型镜像

代码地址:PSPNet

1. 概述

导读:这篇文章使用不同的金字塔池化模块从利用特征全局分类的角度在FCN网络的基础上提出了金字塔分割网络(Pyramid Scene Parsing Network, PSPNet),该网络能够使用全局与局部的信息用于产生最后较高质量的分割。此外,文章还提出了deeply supervised loss来更好优化分割网络(主干网络上的辅助损失函数)。文章提出的PSPNet在VOC-2012数据集上达到85.4,CityScapes数据集上达到80.2。

文章的主要贡献:

  • 1)提出了PSPNet,它将困难的场景上下特征嵌入到基于FCN网络中;
  • 2)对于ResNet基于deeply supervised loss提出了有效优化策略;
  • 3)构建了一个state-of-art的语义分割系统;

下面是使用文章提出的方法进行分割得到的分割示例:
在这里插入图片描述
现有分割网络存在的一些问题,如下图所示:
在这里插入图片描述
1. Mismatched Relationship
对于一个物体其存在的位置是有其规律的,比如图2第一行中所示的,一辆车是很少会出现在河面上的,这是由于缺少上下文的信息导致错误分类概率增加导致的;
2. Confusion Categories
对于一些具有相似属性的目标会在分割网络结果中存在混淆的现象,如图2中第二行所示。这个问题可以使用类间的关系进行解决;
3. Inconspicuous Classes
对于一些较小的目标在分割任务中难以找到,大目标超出了网络感受野而导致不连续分割的情况,如图2第三行所示。为了提高网络对非常小或非常大的对象的性能,应该注意包含不显著类别的东西的不同子区域。

2. 方法设计

这篇文章提出的Pyramid Pooling Module是由大小为 1 ∗ 1 , 2 ∗ 2 , 3 ∗ 3 , 6 ∗ 6 1*1,2*2,3*3,6*6 11,22,33,66大小的池化特征组成,其结构见图3中c所示
在这里插入图片描述
在图3中采用的是带有膨胀卷积的ResNet作为主干网络去抽取输入图像的特征,经过ResNet的4个stage之后特征的尺寸变为了输入图像的 1 8 \frac{1}{8} 81,之后就是用4个层级的Pyramid Pooling Module覆盖整个特征图获取先验信息,之后融合起来产生最后的分割输出。对于Pyramid Pooling Module的结构见下图所示:
在这里插入图片描述
也就是在一个固定的特征上使用不同kernel_size的池化生成先验特征,之后再将这些特征组合起来。这些特征通过上采样保持输出的尺度固定的。这里使用池化的方法(AVE与MAX)带来的结果不同,见下表比较
在这里插入图片描述
此外,文章为主干网络添加了辅助损失函数用以帮助训练:
在这里插入图片描述
辅助损失函数带来的影响分析:
在这里插入图片描述

3. 实验结果

网络深度对分割结果的影响:
在这里插入图片描述
在这里插入图片描述
VOC数据集上的性能表现:
在这里插入图片描述

您可能感兴趣的与本文相关的镜像

Qwen-Image-Edit-2509

Qwen-Image-Edit-2509

图片编辑
Qwen

Qwen-Image-Edit-2509 是阿里巴巴通义千问团队于2025年9月发布的最新图像编辑AI模型,主要支持多图编辑,包括“人物+人物”、“人物+商品”等组合玩法

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值