对Dilated Convolution理解

最新推荐文章于 2025-10-25 08:00:00 发布

原创

最新推荐文章于 2025-10-25 08:00:00 发布 · 5.2k 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#卷积神经网络 #扩张的卷积 #空洞卷积 #语义分割 #深度学习

本文深入探讨了Dilated Convolution（空洞卷积）在图像语义分割中的应用，通过不损失分辨率的方式扩大感受野，解决了传统卷积网络在密集预测任务中的信息损失问题。文章总结了论文《Multi-Scale Context Aggregation by Dilated Convolutions》，介绍了Dilated Convolution的工作原理，指出其在上下文信息聚合和稠密预测任务中的优势。

“微信公众号”

本文同步更新在我的微信公众号里，地址：https://mp.weixin.qq.com/s/erRlLajvOYmwcfZApNOzIw

本文同步更新在我的知乎专栏里，地址：https://zhuanlan.zhihu.com/p/39542237

本文主要对论文《Multi-Scale Context Aggregation by Dilated Convolutions》进行总结。

论文地址：

https://arxiv.org/abs/1511.07122

源码地址：

https://github.com/fyu/dilation

摘要

针对图像语义分割中像素点级别的密集预测分类，提出了一种新的卷积网络模块。通过扩张（空洞）卷积进行多尺度上下文信息聚合而不降低特征图的大小。扩张卷积支持感受野的指数增长。

1. 前言

（1）什么是图像语义分割？

图像语义分割可以说是图像理解的基石性技术，在自动驾驶系统（具体为街景识别与理解）、无人机应用（着陆点判断）以及穿戴式设备应用中举足轻重。我们都知道，图像是由许多像素（Pixel）组成，而「语义分割」顾名思义就是将像素按照图像中表达语义含义的不同进行分组（Grouping）／分割（Segmentation）。图像的语义分割又属于密集预测（dense prediction）。

图1：图像语义分割

图像语义分割的意思就是机器自动分割并识别出图像中的内容，比如图1中给出一个人骑摩托车的照片，机器判断后应当能够生成右侧图，红色标注为人，绿色是车（黑色表示back ground）。

（2）论文思想

传统的图像分类网络通常通过连续的pooling或其他的下采样层来整合多尺度的上下文信息，这种方式会损失分辨率。而对于稠密预测（dense prediction）任务而言，不仅需要多尺度的上下文信息，同时还要求输出具有足够大的分辨率。

为了解决这个问题，以前的论文做法是：

1) 在图像分割领域，图像输入到FCN中，FCN先像传统的CNN那样对图像做卷积再pooling，降低图像像素的同时增大感受野，但是由于图像分割预测是逐像素的输出，所以要将pooling后较小的图像尺寸上采样（upsampling）到原始的图像尺寸进行预测，上采样一般采用反卷积（deconv）操作。池化（pooling）操作使得每个像素预测都能看到较大的感受野信息。因此

最低0.47元/天解锁文章