论文阅读《Rethinking Atrous Convolution for Semantic Image Segmentation》

本文研究了空洞卷积在 Deeplab v3 中的作用,探讨了其对提高 ASPP 模块性能的贡献。论文提出在 ASPP 中加入批量归一化和全局池化来增强全局上下文信息的提取,同时对比了级联和并行网络结构的效果。实验结果显示,改进的 ASPP 结构能有效提升语义图像分割的准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Deeplab v3

1.Contribution:

这篇论文和deeplab v2相比,contribution不多,主要是在原来的ASPP模块里面加入了bn,同时引入加入了global context来提高ASPP模块的性能。

2.Related work

文章主要还是专注于图像多尺度信息的提取,作者总结了目前流行的4中多尺度信息提取的方法,如下图所示:
d1
第一种用图像金字塔作为输入;
第二种采用encoder-decoder的方式,去年的一篇FPN就是这种方式的典型代表;
第三种采用Atrous convolution的方式,利用不同的dilated rate可以提取不同scale的特征;
第四种采用SPP的方式,这个在目标检测领域比较常见,可以人为控制任意大小输入的feature map经过spatial pooling之后的特征大小

3.Methods

作者主要尝试了两种不同的网络结构:Cascade和Parallel

3.1.Going Deeper with Atrous Convolution

下图表示Cascade的结构,以resnet101为例,resnet101一共有4个block

### DeepLabv3 论文分析 DeepLabv3 是一种基于卷积神经网络 (CNN) 的语义分割模型,其核心思想在于通过空间金字塔池化模块 (ASPP, Atrous Spatial Pyramid Pooling) 和空洞卷积来增强特征图的空间分辨率和多尺度上下文信息[^1]。 #### 主要贡献 DeepLabv3 提出了改进的 ASPP 模块,该模块利用多个不同采样率的空洞卷积捕获多尺度上下文信息。此外,它还引入了全局平均池化层以捕捉更广泛的场景级信息[^2]。 以下是 DeepLabv3 的一些关键技术点: 1. **Atrous Convolution**: 使用空洞卷积代替标准卷积,在不增加计算量的情况下扩大感受野。 2. **ASPP Module**: 结合多种采样率的空洞卷积以及全局平均池化,提取丰富的上下文信息。 3. **ResNet Backbone**: 利用 ResNet 作为基础骨干网络,并在网络末端移除下采样操作以保留更多细节信息。 #### 如何获取论文? 可以通过以下方式下载 DeepLabv3 的研究论文: - 前往官方发布平台 ArXiv 或 Google Research 页面搜索标题:“Rethinking Atrous Convolution for Semantic Image Segmentation”。 - 在学术搜索引擎如 Google Scholar 输入关键词 “DeepLabv3”。 #### 关键代码片段 以下是 PyTorch 实现中的部分 ASPP 模块代码示例: ```python import torch.nn as nn class ASPPConv(nn.Module): def __init__(self, in_channels, out_channels, dilation): super(ASPPConv, self).__init__() self.conv = nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=1, padding=dilation, dilation=dilation, bias=False) def forward(self, x): return self.conv(x) ``` 此代码定义了一个带有指定膨胀率的空洞卷积层,用于构建完整的 ASPP 模块。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值