【PSPnet】Pyramid Scene Parsing Network

PSPNet是CVPR 2017年提出的,旨在解决场景解析中的全局上下文信息利用问题。该网络通过Pyramid Pooling Module结合不同尺度的上下文信息,改进了基于FCN的模型,尤其对于类别相似性、不显著类别识别的准确性。PSPNet在ImageNet、PASCAL VOC 2012和Cityscapes等数据集上取得了最佳性能,mIoU分别达到85.4%和80.2%。其贡献包括引入PSPNet结构和深度监督损失。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述
CVPR 2017,目前在google上显示已经被引用了744,相当厉害。

概述


  • 要解决的问题
    • Scene parsing
    • 解决:当前基于FCN的模型缺乏将全局场景类别线索利用起来的策略。比如在论文的fig2中,将水中的船识别为汽车,这是一个由于目标的外型相似造成的error,但是根据周围场景(诸如在水里之类的),可以得出这不是车而更可能是船。
    • 类别的相似性:如ADE20K数据集中的mountain & hill, building & skyscraper
    • 不显著类别:尺寸小(如streelight, signboard),超出感受野的大尺寸物体(造成不连续的预测)。
      在这里插入图片描述
  • 采用的方法
    • 利用不同区域的上下文聚合信息来挖掘全局上下文信息
    • PSPNet:baseline is FCN and dilated network.
    • deeply supervised loss
  • 结果如何
    • 在2016年的ImageNet场景解析赛、PASCAL VOC 2012、Cityscapes中均获得第一名。
    • PASCAL VOC 2012上mIoU为85.4%,Cityscapes上为80.2%。
  • Contributions
    • 提出PSPnet的网络结构,此结构是基于FCN的金字塔场景解析网络,将复杂的场景上下文特征嵌入其中像素预测框架。
    • 基于深度监督的优化策略
  • Related work
    • 表现比较好的场景解析算法大多基于FCN
    • 目前要利用更多的上下文信息的方法:(1)多尺度特征融合,也就是金字塔一类,不同尺度的feature map带有不同程度的语义信息和边缘精度信息,结合起来可以产生比较好的结果;(2)基于structure prediction,最开始是使用CRF作为后处理来结合上下文信息。
Params Values
LMO dataset pioneer parsing task, 33 classes, 2688 images
PASCAL VOC & PASCAL context dataset more images with similar context
ADE20k dataset most challenging

细节


结构
在这里插入图片描述

  • Pyramid Pooling Module 1:现在很多网络就是没法很好的综合上下文信息。不过,Global average pooling是一个很好的综合上下文信息的手段,在分类任务用的比较多。但是对于像ADE20K这种复杂场景图数据集,光GAP是不够的。然后Pyramid Pooling Module就上场了。
  • Pyramid Pooling Module 2:模块融合了N个不同的金字塔sc
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值