Deeplab v3 | Rethinking Atrous Convolution for Semantic Image Segmentation

最新推荐文章于 2025-10-22 14:59:26 发布

原创最新推荐文章于 2025-10-22 14:59:26 发布 · 1.2w 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#deeplab-v3

分割专栏收录该内容

11 篇文章

订阅专栏

本文探讨了全局信息及多尺度信息在语义分割中的应用，介绍了Deeplabv3+提出的两种框架——加长版和增强版ASPP，并讨论了多网格算法的应用及其对模型性能的影响。

鉴于之前写过deeplab v1与2，继续读一读新出的v3

整体来说，这篇文章还是在探究两个大家一直在做的问题：全局信息于多尺度信息。另外作者还强调了BN的使用。

本文在原有的框架下提出了两种框架：
1. 加长版
2. 增强版ASPP（deeplab v3）
两者都使用了Multi-grid的多 hole算法rates。

1. Multigrid

图森的论文也提过类似的方法,

P. Wang, P. Chen, Y. Yuan, D. Liu, Z. Huang, X. Hou, and G. Cottrell. Understanding convolution for semantic segmentation.
arXiv:1702.08502, 2017.

下面简单的说一蛤，
原本一个block内的卷积层，e.g. 三层，都是一个rate，这里将其分别变为不同的rates，比如将 $2\times(1,1,1)$ 变为 $2\times(1,2,1)$ 。

2. 加长版

这里写图片描述

这里在原有基础上增加了几个block，增加的效果：

这里写图片描述

加入Multi-Grid的效果

这里写图片描述

3. 增强版ASPP

这里写图片描述

这里和原来的区别在于增加了一个 gloable average pooling，然后所有的concat 并学一个conv
效果如下：
这里写图片描述

4. 其他

BN层是先使用output stride=16训练后锁定的
coco预训练，Multiscale inputs，filp都起到了不错的效果，训练时采用了增加困难样本的策略

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

bea_tree

关注关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Deeplab V3+工作原理讲解：背景知识、基本概念及其操作步骤

AI天才研究院

08-07

2307

DeepLab v3+ (Rethinking Atrous Convolution for Semantic Image Segmentation) 是Google于2019年提出的一种基于Atrous Spatial Pyramid Pooling (ASPP)模块的语义分割网络，可以有效提升语义分割的准确率并减少计算量。

Deeplabv3学习:一种语义分割模型

qq_63318216的博客

12-04

2156

DeepLabV3 是由 Google 研究团队研发并专门用于图像语义分割的一种深度学习模型。

2 条评论您还未登录，请先登录后发表或查看评论

空洞空间金字塔池化（Atrous Spatial Pyramid Pooling, ASPP）：语义分割任务的多尺度特征提取

最新发布

彬彬侠的博客

10-22

770

ASPP（Atrous Spatial Pyramid Pooling）是深度学习语义分割中的关键模块，通过并行使用不同膨胀率的空洞卷积捕捉多尺度上下文信息，同时保持特征图分辨率。作为DeepLab系列的核心组件，ASPP有效解决了传统CNN处理不同大小物体的局限性。其主要优势包括多尺度鲁棒性、计算高效性和灵活性，但也存在棋盘效应等缺点。该模块广泛应用于自动驾驶、医疗影像等领域，在Cityscapes等数据集上显著提升分割精度（如mIoU达82%）。ASPP通过空洞卷积优化了传统SPP方法，成为现代分割模型

百度飞浆图像分割课程笔记05：DeepLab系列网络 v1-v3 以及代码实现

qq_39804263的博客

10-25

859

DeepLab系列网络对应的文章 paper链接 v1: https://arxiv.org/abs/1412.7062 v2: https://ieeexplore.ieee.org/abstract/document/7913730/ v3：https://arxiv.org/abs/1706.05587 v3+：https://openaccess.thecvf.com/content_ECCV_2018/html/Liang-Chieh_Chen_Encoder-Decoder_with_Atro

DeepLabV3

正在挣扎中的人

03-15

4839

DeepLabV3详解

DeepLab v3

我的博客

05-12

2219

在本工作中，我们重新审视了空洞卷积这一强大的工具，它可以明确调整过滤器的视野，以及通过深度卷积神经网络计算特征响应的分辨率。我们设计了模块来处理多尺度分割对象的问题，这些模块采用多个空洞率级联或并行地使用空洞卷积来捕获多尺度上下文。此外，我们建议利用全局上下文编码图像级特征来进一步提高我们之前提出的" Atrous Spatial Pyramid Pooling" 模块对多尺度卷积特征的探究，并进一步提高性能。我们还详细说明了实现细节，并分享了我们在训练系统方面的经验。所提出的 “DeepLabv3” 系统

Rethinking Atrous Convolution for Semantic Image Segmentation.zip

02-02

Rethinking Atrous Convolution for Semantic Image Segmentation是一项研究工作，主要针对语义图像分割领域中的一种特定卷积操作——膨胀卷积（Atrous Convolution）的重新思考和改进。在语义图像分割任务中，...

DeepLab系列 Rethinking Atrous Convolution for Semantic Image Segmentation 语义分割

万有文的博客

05-07

992

作者发现Deep Convolutional Neural Networks (DCNNs) 能够很好的处理的图像级别的分类问题，因为它具有很好的平移不变性（空间细节信息已高度抽象），但是DCNNs很难处理像素级别的分类问题，例如姿态估计和语义分割，它们需要准确的位置信息。将深度神经网络DCNN与全连接CRF结合起来，提高图像分割的分割精度。提出空洞卷积的思想。应用尝试了多尺度、多层次的信息融合。重复堆叠的池化和下采样操作导致分辨率大幅下降，位置信息丢失难以恢复。

【阅读笔记】《Rethinking Atrous Convolution for Semantic Image Segmentation》（DeepLab v3）

ShuqiaoS的博客

04-11

1116

本文记录了博主阅读论文《Rethinking Atrous Convolution for Semantic Image Segmentation》（DeepLab v3）的笔记，更新于2019.04.10。文章目录AbstractIntroductionRelated WorkMethodsAtrous Convolution for Dense Feature ExtractionGoing...

CVPR2017(Segmentation)：DeepLabV3-论文解读《Rethinking Atrous Convolution for Semantic Image Segmentation》

要相信光

05-26

3135

文章目录原文地址论文阅读方法初识（Abstract & Introduction & Conclusion）相识（Body）2.Related Work3.Methods3.1.Atrous Convolution for Dense Feature Extraction3.2. Going Deeper with Atrous Convolution3.2.1. Multi-grid Method3.3. Atrous Spatial Pyramid Pooling4. Experime

【DeepLabV3】Rethinking Atrous Convolution for Semantic Image Segmentation

OneCoder的博客

12-06

698

文章目录概述细节ChallengeOur Workresult 概述以下主要来自其官方PPT 文中提出两个语义分割的challenges： 1、连续池化和下采样会让后面特征的分辨率下降，这对于做精细的分割是不利的。 2、多尺度目标的存在。相对于V1、V2的改变： V3所提出的框架可以应用到任意的网络中，应该指的是主干网络。最后的ResNet block被重用多次，被安排进行级联操...

DeepLab-v3

zxrc的博客

07-14

938

一、待解决的问题连续下采样和重复池化，导致最后特征图分辨率低图像中存在多尺度问题空间不变性导致细节信息丢失（v3未采用CRF）二、创新点增加多尺度分割物体的模块，设计了串行和并行的空洞卷积模块，采用不同的膨胀率atrous rate 三、具体细节 ...

DeepLabV3(Rethinking Atrous Convolution for Semantic Image Segmentation)

Keep_Trying_Go的博客

09-14

3267

DeepLabV3(Rethinking Atrous Convolution for Semantic Image Segmentation)

[语义分割] DeepLab v3（Cascaded model、ASPP model、两种ASPP对比、Multi-grid、训练细节）

Le0v1n 的博客

07-28

3152

Cascaded model、ASPP model、两种ASPP对比、Multi-grid、训练细节

DeepLabV3 - 详细介绍

热门推荐

qq_43492938的博客

12-14

3万+

基本情况这是在DeepLabV1、2基础上的再扩展； V1 主要是将VGG最后两个的池化改成了stride=1，然后采用了空洞卷积来扩大感受野，上采样使用了双线性插值； V2主要是在模型最后进行像素分类之前增加一个类似 Inception 的结构，即ASPP模块，通过不同rate得到不同尺度的特征图，再进行预测； V3 主要是对之前模块的升级，从而提升性能。引言&相关工作一般的分割存在两个挑战，一个是分辨率的下降（由下采样导致），常常采用空洞卷积来代替池化解决，效果不错；另一个是存在多个尺

机器学习笔记 - 用于语义图像分割的空洞卷积DeepLabv3

学以致用知行合一

01-06

4744

DeepLabv3 是用于语义分割任务的深度神经网络 (DNN) 架构。虽然不是多新的网络模型，但是也是分割模型里的杰出代表之一，所以还是值得深入了解。它使用Atrous（Dilated）卷积来控制感受野和特征图分辨率，而不增加参数总数。另一个主要属性是所谓的“Atrous Spatial Pyramid Pooling”，它可以有效地提取包含有用分割信息的多尺度特征。一般来说，网络能够捕获具有丰富远程信息的密集特征图，可用于准确分割图像。

DeepLab v3+原理详解

weixin_52348290的博客

09-28

7763

DeepLab v3+模型的详解

TensorFlow DeepLab-V3 开源项目教程

gitblog_00343的博客

08-22

577

TensorFlow DeepLab-V3 开源项目教程项目介绍 TensorFlow DeepLab-V3 是一个基于 TensorFlow 框架实现的高性能语义分割模型。该项目利用深度学习技术，特别是深度卷积神经网络（DCNN），来识别和分割图像中的不同对象。DeepLab-V3 通过引入空洞卷积（Atrous Convolution）和空间金字塔池化（ASPP）等技术，显著提高了模型在复杂...

我对DeepLab V3的理解（基于V1和V2）

m0_58770526的博客

07-19

1万+

空洞卷积（AtrousConv）;全连接条件随机场（Fully-connectedConditionalRandomField）。DeepLabV1为了避免池化引起的信息丢失问题，提出了空洞卷积的方式，这样可以在增大感受野的同时不增加参数数量，同时保证信息不丢失。1.2.deeplabv3论文翻译3....