CVPR 2017,目前在google上显示已经被引用了744,相当厉害。
文章目录
概述
- 要解决的问题
- Scene parsing
- 解决:当前基于FCN的模型缺乏将全局场景类别线索利用起来的策略。比如在论文的fig2中,将水中的船识别为汽车,这是一个由于目标的外型相似造成的error,但是根据周围场景(诸如在水里之类的),可以得出这不是车而更可能是船。
- 类别的相似性:如ADE20K数据集中的mountain & hill, building & skyscraper
- 不显著类别:尺寸小(如streelight, signboard),超出感受野的大尺寸物体(造成不连续的预测)。
- 采用的方法
- 利用不同区域的上下文聚合信息来挖掘全局上下文信息
- PSPNet:baseline is FCN and dilated network.
- deeply supervised loss
- 结果如何
- 在2016年的ImageNet场景解析赛、PASCAL VOC 2012、Cityscapes中均获得第一名。
- PASCAL VOC 2012上mIoU为85.4%,Cityscapes上为80.2%。
- Contributions
- 提出PSPnet的网络结构,此结构是基于FCN的金字塔场景解析网络,将复杂的场景上下文特征嵌入其中像素预测框架。
- 基于深度监督的优化策略
- Related work
- 表现比较好的场景解析算法大多基于FCN
- 目前要利用更多的上下文信息的方法:(1)多尺度特征融合,也就是金字塔一类,不同尺度的feature map带有不同程度的语义信息和边缘精度信息,结合起来可以产生比较好的结果;(2)基于structure prediction,最开始是使用CRF作为后处理来结合上下文信息。
Params | Values |
---|---|
LMO dataset | pioneer parsing task, 33 classes, 2688 images |
PASCAL VOC & PASCAL context dataset | more images with similar context |
ADE20k dataset | most challenging |
细节
结构
- Pyramid Pooling Module 1:现在很多网络就是没法很好的综合上下文信息。不过,Global average pooling是一个很好的综合上下文信息的手段,在分类任务用的比较多。但是对于像ADE20K这种复杂场景图数据集,光GAP是不够的。然后Pyramid Pooling Module就上场了。
- Pyramid Pooling Module 2:模块融合了N个不同的金字塔sc