【DeepLabV3】Rethinking Atrous Convolution for Semantic Image Segmentation

DeepLabV3重新审视了空洞卷积在级联模块和空间金字塔池化中的应用。文章提出了连续池化和下采样对精细分割的挑战,以及多尺度目标的问题。DeepLabV3采用级联的ResNet块,结合不同率的空洞卷积,以解决这些问题。实验结果显示,在Pascal VOC 2012测试中达到85.7%的精度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述

概述

以下主要来自其官方PPT

  • 文中提出两个语义分割的challenges
    • 1、连续池化和下采样会让后面特征的分辨率下降,这对于做精细的分割是不利的。
    • 2、多尺度目标的存在。
  • 相对于V1、V2的改变
    • V3所提出的框架可以应用到任意的网络中,应该指的是主干网络。
    • 最后的ResNet block被重用多次,被安排进行级联操作。
    • 在ASPP中加入了Batch normalization。
    • CRF没有被用到。
  • Contribution
    • 本文重新讨论了空洞卷积在cascaded modules and spatical pyramid pooling(Parallel)结构中的应用问题。
    • 讨论了一个重要的问题:对3x3的空洞卷积进行各种rate的尝试,甚至是很极端的情况(在极端的rate情况下,空洞卷积就失去了获取更多上下文信息的能力,转而就退化为1x1卷积功能)。
    • 阐述了一些训练的经验和实验细节。
  • Result
    • Pascal VOC 2012 test 85.7%

细节

Challenge

上面已经阐述过了有两个问题,以下讨论四种利用上下文信息的方法来进行语义分割:
在这里插入图片描述

  • Image pyramid:将图片缩放成不同比例,各种经过DCNN后融合输出。
  • Encoder-Decoder:利用Encoder阶段的多尺度特征,运用到Decoder阶段上恢复空间分辨率,这样做法有FCN、SegNet、Unet等网络。
  • Context module:在原始模块后增加模块,如DenseCRF,对像素间的关联进行分析。
  • Spatial pyramid pooling:使用spp在不同的范围内获取上下文信息。如,在ParseNet中就使用了Image-level feature,可以获取全局的上下文信息。DeepLabV2使用ASPP,利用不同的rate来获取多种scale的信息。
  • <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值