原文信息
原文题目:《Pyramid Scene Parsing Network》
原文引用:Zhao H, Shi J, Qi X, et al. Pyramid scene parsing network[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 2881-2890.
0.摘要
场景解析对于无限制的开放词汇和多样化的场景是具有挑战性的。在本文中,我们通过金字塔池化模块和提出的金字塔场景解析网络(PSPNet:Pyramid Scene Parsing Network),利用全局上下文信息的能力,通过基于不同区域的上下文聚合,来处理场景解析任务。我们的全局先验表示在场景解析任务上能够产生高质量的结果,而PSPNet为像素级预测提供了优越的框架。该方法在各种数据集上实现了最先进的性能。它在2016年ImageNet场景解析挑战赛、PASCAL VOC 2012基准和Cityscapes基准中名列前茅。单个PSPNet在PASCAL VOC 2012上实现了新的mIoU准确度记录,达到了85.4%,在Cityscapes上的准确度为80.2%。
1.引言
基于语义分割的场景解析是计算机视觉中的一个基本主题。其目标是为图像中的每个像素分配一个类别标签。场景解析提供了对场景的完全理解,它预测了每个元素的标签、位置和形状。这个主题在自动驾驶、机器人感知等潜在应用中具有广泛的兴趣。场景解析的难度与场景和标签的多样性密切相关。先驱的场景解析任务[23]是对LMO数据集[22]上的2,688张图像进行33个场景的分类。更近期的PASCAL VOC语义分割和PASCAL上下文数据集[8,29]包括更多具有类似上下文的标签,例如椅子和沙发,马和牛等。而新的ADE20K数据集[43]是最具挑战性的,具有大规模和不受限制的开放词汇表和更多的场景类别。图1展示了一些代表性的图像。为这些数据集开发出有效的算法需要克服一些困难。
最先进的场景解析框架大多基于全卷积网络(FCN)[26]。基于深度卷积神经网络(CNN)的方法提升了动态物体的理解能力,然而在考虑不同场景和无限制词汇时仍面临挑战。图2的第一行展示了一个例子,其中一艘船被误认为是一辆汽车。这些错误是由于物体的外观相似导致的。但是,当考虑到场景的上下文先验,即场景被描述为靠近一条河流的船屋时,应该能够得出正确的预测。
为了实现准确的场景感知,知识图谱依赖于场景上下文的先验信息。我们发现,当前基于FCN的模型主要问题是缺乏合适的策略来利用全局场景类别线索。在典型的复杂场景理解中,以前为了获取全局的图像级特征,广泛采用了空间金字塔池化[18],其中空间统计提供了对整体场景解释的良好描述。空间金字塔池化网络[12]进一步增强了其能力。与这些方法不同,为了融合适当的全局特征,我们提出了金字塔场景解析网络(PSPNet)。除了传统的扩张FCN [3,40]用于像素预测外,我们将像素级特征扩展到特别设计的全局金字塔池化特征上。局部和全局线索共同使最终预测更可靠。我们还提出了一种带有深层监督损失的优化策略。我们提供了所有的实现细节,这些细节对于我们在本文中表现出色是关键,并且我们公开提供了代码和训练模型。
我们的方法在所有可用的数据集上取得了最先进的性能。它是ImageNet场景解析挑战赛2016 [43]的冠军,并在PASCAL VOC 2012语义分割基准测试[8]和城市场景Cityscapes数据[6]中获得了第一名。这些表明PSPNet为像素级预测任务提供了一个有希望的方向,甚至可能在后续工作中对基于CNN的立体匹配、光流、深度估计等任务产生影响。我们的主要贡献有三个方面:
•我们提出了一个金字塔场景解析网络,将复杂的场景上下文特征嵌入到基于FCN的像素预测框架中。
•我们基于深度监督损失为深度残差网络(ResNet)[13]开发了一种有效的优化策略。
•我们构建了一个实用的系统,用于最先进的场景解析和语义分割,其中包括所有关键的实现细节。

文章提出了一种名为PSPNet的深度学习模型,用于场景解析任务,特别是处理复杂场景和开放词汇的挑战。PSPNet通过金字塔池化模块捕获全局上下文信息,以改善像素级预测的准确性。此外,文章还介绍了基于ResNet的深度监督策略,以优化深度网络的训练。实验结果显示,PSPNet在多个数据集上实现了最先进的性能,证明了其在场景解析领域的有效性。
https://openaccess.thecvf.com/content_cvpr_2017/papers/Zhao_Pyramid_Scene_Parsing_CVPR_2017_paper.pdf
最低0.47元/天 解锁文章
1858

被折叠的 条评论
为什么被折叠?



