
CVPR 2017,目前在google上显示已经被引用了744,相当厉害。
文章目录
概述
- 要解决的问题
- Scene parsing
- 解决:当前基于FCN的模型缺乏将全局场景类别线索利用起来的策略。比如在论文的fig2中,将水中的船识别为汽车,这是一个由于目标的外型相似造成的error,但是根据周围场景(诸如在水里之类的),可以得出这不是车而更可能是船。
- 类别的相似性:如ADE20K数据集中的mountain & hill, building & skyscraper
- 不显著类别:尺寸小(如streelight, signboard),超出感受野的大尺寸物体(造成不连续的预测)。

- 采用的方法
- 利用不同区域的上下文聚合信息来挖掘全局上下文信息
- PSPNet:baseline is FCN and dilated network.
- deeply supervised loss
- 结果如何
- 在2016年的ImageNet场景解析赛、PASCAL VOC 2012、Cityscapes中均获得第一名。
- PASCAL VOC 2012上mIoU为85.4%,Cityscapes上为80.2%。
- Contributions
- 提出PSPnet的网络结构,此结构是基于FCN的金字塔场景解析网络,将复杂的场景上下文特征嵌入其中像素预测框架。
- 基于深度监督的优化策略
- Related work
- 表现比较好的场景解析算法大多基于FCN
- 目前要利用更多的上下文信息的方法:(1)多尺度特征融合,也就是金字塔一类,不同尺度的feature map带有不同程度的语义信息和边缘精度信息,结合起来可以产生比较好的结果;(2)基于structure prediction,最开始是使用CRF作为后处理来结合上下文信息。
| Params | Values |
|---|---|
| LMO dataset | pioneer parsing task, 33 classes, 2688 images |
| PASCAL VOC & PASCAL context dataset | more images with similar context |
| ADE20k dataset | most challenging |
细节
结构

- Pyramid Pooling Module 1:现在很多网络就是没法很好的综合上下文信息。不过,Global average pooling是一个很好的综合上下文信息的手段,在分类任务用的比较多。但是对于像ADE20K这种复杂场景图数据集,光GAP是不够的。然后Pyramid Pooling Module就上场了。
- Pyramid Pooling Module 2:模块融合了N个不同的金字塔scale,其中每个不同大小的并联路径中conv为1x1卷积来进行降维到原来的1/N这个N表示Pyramid level的数量【N可变】。 之后直接双线性插值上采样到模块输入的feature map大小,最后进行concat。
- backbone:前面提取特征的主干是与训练好的使用空洞卷积策

PSPNet是CVPR 2017年提出的,旨在解决场景解析中的全局上下文信息利用问题。该网络通过Pyramid Pooling Module结合不同尺度的上下文信息,改进了基于FCN的模型,尤其对于类别相似性、不显著类别识别的准确性。PSPNet在ImageNet、PASCAL VOC 2012和Cityscapes等数据集上取得了最佳性能,mIoU分别达到85.4%和80.2%。其贡献包括引入PSPNet结构和深度监督损失。
最低0.47元/天 解锁文章

684

被折叠的 条评论
为什么被折叠?



