【PSPnet】Pyramid Scene Parsing Network

最新推荐文章于 2022-10-13 19:36:18 发布

原创

最新推荐文章于 2022-10-13 19:36:18 发布 · 707 阅读

1 ·

CC 4.0 BY-SA版权

PSPNet是CVPR 2017年提出的，旨在解决场景解析中的全局上下文信息利用问题。该网络通过Pyramid Pooling Module结合不同尺度的上下文信息，改进了基于FCN的模型，尤其对于类别相似性、不显著类别识别的准确性。PSPNet在ImageNet、PASCAL VOC 2012和Cityscapes等数据集上取得了最佳性能，mIoU分别达到85.4%和80.2%。其贡献包括引入PSPNet结构和深度监督损失。

在这里插入图片描述
CVPR 2017,目前在google上显示已经被引用了744，相当厉害。

文章目录

- 概述
- 细节
- Results
- Conclusion

概述

要解决的问题
- Scene parsing
- 解决：当前基于FCN的模型缺乏将全局场景类别线索利用起来的策略。比如在论文的fig2中，将水中的船识别为汽车，这是一个由于目标的外型相似造成的error，但是根据周围场景（诸如在水里之类的），可以得出这不是车而更可能是船。
- 类别的相似性：如ADE20K数据集中的mountain & hill, building & skyscraper
- 不显著类别：尺寸小（如streelight, signboard），超出感受野的大尺寸物体（造成不连续的预测）。
采用的方法
- 利用不同区域的上下文聚合信息来挖掘全局上下文信息
- PSPNet：baseline is FCN and dilated network.
- deeply supervised loss
结果如何
- 在2016年的ImageNet场景解析赛、PASCAL VOC 2012、Cityscapes中均获得第一名。
- PASCAL VOC 2012上mIoU为85.4%，Cityscapes上为80.2%。
Contributions
- 提出PSPnet的网络结构，此结构是基于FCN的金字塔场景解析网络，将复杂的场景上下文特征嵌入其中像素预测框架。
- 基于深度监督的优化策略
Related work
- 表现比较好的场景解析算法大多基于FCN
- 目前要利用更多的上下文信息的方法：（1）多尺度特征融合，也就是金字塔一类，不同尺度的feature map带有不同程度的语义信息和边缘精度信息，结合起来可以产生比较好的结果；（2）基于structure prediction，最开始是使用CRF作为后处理来结合上下文信息。

Params	Values
LMO dataset	pioneer parsing task, 33 classes, 2688 images
PASCAL VOC & PASCAL context dataset	more images with similar context
ADE20k dataset	most challenging

细节

结构
在这里插入图片描述

Pyramid Pooling Module 1：现在很多网络就是没法很好的综合上下文信息。不过，Global average pooling是一个很好的综合上下文信息的手段，在分类任务用的比较多。但是对于像ADE20K这种复杂场景图数据集，光GAP是不够的。然后Pyramid Pooling Module就上场了。
Pyramid Pooling Module 2：模块融合了N个不同的金字塔sc