第九章:RefineNet——多路径细化网络用于高分辨率语义分割

RefineNet是一种多路径细化网络,用于解决深度CNN在语义分割中分辨率降低的问题。通过长程残差连接和多分辨率融合,RefineNet能有效结合不同层次的特征,生成高分辨率的语义特征图。在多个公共数据集上,RefineNet达到了最优性能,特别是在PASCALVOC2012上取得了83.4的IoU分数。该方法强调了利用中间层特征的重要性,并提出链式残差池化来捕获背景上下文。

&原文信息

原文题目:《RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation》

原文引用:Lin G, Milan A, Shen C, et al. Refinenet: Multi-path refinement networks for high-resolution semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1925-1934.

原文链接:https://openaccess.thecvf.com/content_cvpr_2017/papers/Lin_RefineNet_Multi-Path_Refinement_CVPR_2017_paper.pdficon-default.png?t=N6B9https://openaccess.thecvf.com/content_cvpr_2017/papers/Lin_RefineNet_Multi-Path_Refinement_CVPR_2017_paper.pdf

0.摘要

        最近,非常深的卷积神经网络(CNN)在目标识别方面表现出色,并且也是密集分类问题(如语义分割)的首选。然而,在深度CNN中,重复的子采样操作(如池化或卷积跳跃)会导致初始图像分辨率的显著降低。因此,我们提出了RefineNet,这是一个通用的多路径细化网络,明确利用沿着降采样过程可用的所有信息,通过长程残差连接实现高分辨率预测通过这种方式,能够直接利用较早卷积层的细粒度特征来精确调整捕获高级语义特征的深层。RefineNet的各个组件都采用了残差连接,遵循恒等映射的思想,从而实现了有效的端到端训练。此外,我们引入了链式残差池化,以高效地捕捉丰富的背景上下文。我们进行了全面的实验,并在七个公共数据集上取得了最新的最优结果。特别是,在具有挑战性的PASCAL VOC 2012数据集上,我们取得了83.4的交并比分数,这是迄今为止报道的最好结果。

1.引言

        语义分割是图像理解中的一个关键组成部分。任务是为图像中的每个像素分配一个唯一的标签(或类别),可以被视为一种密集分类问题。所谓的对象解析问题通常可以被视为语义分割。最近,深度学习方法,特别是卷积神经网络(CNN),例如VGG [42]、残差网络 [24],在识别任务中显示出了显著的结果。然而,当涉及到密集预测任务,如密集深度或法线估计 [13,33,34]和语义分割 [36,5]时,这些方法显示出明显的局限性。多个阶段的空间池化和卷积步幅通常会使最终图像预测在每个维度上减少32倍,从而丧失了许多更精细的图像结构。

        解决这个限制的一种方法是学习反卷积滤波器作为上采样操作[38,36],以生成高分辨率的特征图。反卷积操作无法恢复在卷积前向阶段的降采样操作后丢失的低级视觉特征。因此,它们无法输出准确的高分辨率预测。低级视觉信息对于边界或细节的准确预测至关重要。最近由Chen等人提出的DeepLab方法[6]采用了扩张(或膨胀)卷积来考虑更大的感受野,而不对图像进行降采样。DeepLab被广泛应用,并代表了语义分割的最新性能。然而,这种策略至少有两个限制。首先,它需要在通常具有高维特征的大量详细(高分辨率)特征图上进行卷积,这在计算上是昂贵的。而且,大量的高维和高分辨率特征图也需要巨大的GPU内存资源,特别是在训练阶段。这阻碍了高分辨率预测的计算,并且通常将输出大小限制为原始输入的1/8。其次,扩张卷积引入了特征的粗糙子采样,可能导致重要细节的丢失。

        另一种方法利用中间层的特征来生成高分辨率的预测,例如[36]中的FCN方法和[22]中的超级像素方法。这些方法的直觉是,中间层的特征被期望描述对象部分的中级表示,同时保留空间信息。这些信息被认为是早期卷积层的特征的补充,早期卷积层的特征编码低级的空间视觉信息,如边缘、角点、圆等,以及深层的高级特征,编码高级语义信息,包括对象或类别级别的证据,但缺乏强的空间信息。

        我们认为所有层次的特征对于语义分割都是有帮助的。高级语义特征有助于图像区域的类别识别,而低级视觉特征有助于生成高分辨率预测的清晰、详细的边界。如何有效地利用中间层特征仍然是一个开放的问题,值得更多的关注。为此,我们提出了一种新颖的网络架构,有效地利用多层次特征生成高分辨率的预测。我们的主要贡献如下:

        1.我们提出了一个多路径细化网络(RefineNet),它利用多个抽象级别的特征进行高分辨率的语义分割。RefineNet以递归的方式将低分辨率(粗糙的)语义特征与细粒度的低级特征相结合,生成高分辨率的语义特征图。我们的模型具有灵活性,可以轻松地级联和修改。

        2.我们的级联RefineNet可以有效地进行端到端的训练,这对于最佳预测性能至关重要。具体而言,RefineNet中的所有组件都使用残差连接[24]和恒等映射[25],使得梯度可以通过短程和长程残差连接直接传播,从而实现有效和高效的端到端训练。

         3.我们提出了一个新的网络组件,称为串联残差池化,它能够从大范围的图像区域中捕获背景上下文。它通过使用多个窗口大小高效

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值