In this paper, we exploit the capability of global context information by different-region-based context aggregation through out pyramid pooling module together with the proposed pyramid scene parsing network(PSPNet)
作者意识到大部分的FCN-based的模型都缺少合适的策略去利用全局场景下的类别信息[global scene category clues]
模型
- 说明:
- 基础网络ResNet
- 基于FCN全卷积网络
- 多尺度特征融合
- 结构化预测:
- 金字塔场景解析能够提升全局范围信息
- 金字塔池化
- 四种不同的尺度
- 1x1, 2x2, 3x3, 6x6
- 每个尺度下的filter个数为1/N【N为卷积网络最后输出的通道个数】
- pooling操作后,接1x1卷积
- 将不同尺度的特征上采样upsample
- 然后把特征进行cancat,作为金字塔池化的特征输出
- 四种不同的尺度
- 通过卷积进行续重的分割预测
- 辅助loss网络