简介
在这篇文章中,我们通过金字塔池化与金字塔场景解析网络来实现不同区域上下文信息的整合,从而探索全局上下文信息对场景理解能有多大的帮助。
由于PSPNET提供了一个良好的场景解析先验架构,我们的全局先验表达对产生高质量的场景解析任务结果是有效的。
本文提出的方法在不同的数据集上取得了不错的效果,2016年12月在imagenet,voc2012及cityscapes上都取得了第一名。
这里VOC上的mIOU达到了85.4%,cityscapes上80.2%。
背景
在计算机视觉中,基于语义分割的场景解析是一项基础任务。目标就是对图像中的每个像素都划归一类。场景解析提供对一个场景的比较全面的理解,预测标签,坐标,及每个元素的形状等。
这项研究在自动驾驶,机器人场景理解,安防等等好多领域都有应用,这里就不一一列举了。
而场景解析的难度,与标签及场景的复杂程度都有关;
datasets review
早些时候的场景解析任务是对2668张图片分出33个场景,LMO dataset;
稍微近一些的是PASCAL VOC数据集上,在相似的物体上提供了更加详细的标签;比如椅子和沙发,马和牛等;
最近的ADE20K dataset是最有挑战性的一个数据集,提供了一个尺度大且词汇内容丰富且类别更多。
目前大多数实时的分割都是基于FCN的,虽然深度卷积网络CNN提高了动态物体理解的能力,但是当面对多样的场景与未知的类别时容易产生问题。
例如在图2 中第一行,程序将boat错认为是car。
所以为了获得精确的场景感知,自然而然地就需要场景上下文信息来作为先验知识。对应典型的复杂场景理解,事先获得整张图像的全局特征,空间金字塔池化被应用,因为其中可以有不同的空间信息来描述整体场景。Spatial pyramid pooling network即SPP net提高了这一能力。
与原来的方法不同,为了适当的使用全局上下文信息,本文提出金字塔场景解析网络。在传统的dilated FCN的基础之上,将像素级别的特征扩展到全局金字塔池化的特征上。

最低0.47元/天 解锁文章
1009

被折叠的 条评论
为什么被折叠?



