对Dilated Convolution理解

本文深入探讨了Dilated Convolution(空洞卷积)在图像语义分割中的应用,通过不损失分辨率的方式扩大感受野,解决了传统卷积网络在密集预测任务中的信息损失问题。文章总结了论文《Multi-Scale Context Aggregation by Dilated Convolutions》,介绍了Dilated Convolution的工作原理,指出其在上下文信息聚合和稠密预测任务中的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

“微信公众号”


本文同步更新在我的微信公众号里,地址:https://mp.weixin.qq.com/s/erRlLajvOYmwcfZApNOzIw

本文同步更新在我的知乎专栏里,地址:https://zhuanlan.zhihu.com/p/39542237


本文主要对论文《Multi-Scale Context Aggregation by Dilated Convolutions》进行总结。

论文地址:

https://arxiv.org/abs/1511.07122

源码地址:

https://github.com/fyu/dilation


摘要

针对图像语义分割中像素点级别的密集预测分类,提出了一种新的卷积网络模块。通过扩张(空洞)卷积进行多尺度上下文信息聚合而不降低特征图的大小。扩张卷积支持感受野的指数增长。

1. 前言

(1)什么是图像语义分割?

图像语义分割可以说是图像理解的基石性技术,在自动驾驶系统(具体为街景识别与理解)、无人机应用(着陆点判断)以及穿戴式设备应用中举足轻重。我们都知道,图像是由许多像素(Pixel)组成,而「语义分割」顾名思义就是将像素按照图像中表达语义含义的不同进行分组(Grouping)/分割(Segmentation)。图像的语义分割又属于密集预测(dense prediction)。

图1:图像语义分割

图像语义分割的意思就是机器自动分割并识别出图像中的内容,比如图1中给出一个人骑摩托车的照片,机器判断后应当能够生成右侧图,红色标注为人,绿色是车(黑色表示back ground)。

(2)论文思想

传统的图像分类网络通常通过连续的pooling或其他的下采样层来整合多尺度的上下文信息,这种方式会损失分辨率。而对于稠密预测(dense prediction)任务而言,不仅需要多尺度的上下文信息,同时还要求输出具有足够大的分辨率。

为了解决这个问题,以前的论文做法是:

1) 在图像分割领域,图像输入到FCN中,FCN先像传统的CNN那样对图像做卷积再pooling,降低图像像素的同时增大感受野,但是由于图像分割预测是逐像素的输出,所以要将pooling后较小的图像尺寸上采样(upsampling)到原始的图像尺寸进行预测,上采样一般采用反卷积(deconv)操作。池化(pooling)操作使得每个像素预测都能看到较大的感受野信息。因此

### 什么是Dilated Convolution Dilated convolution(也称为atrous convolution)是一种特殊的卷积操作,它通过在标准卷积核中插入空洞(即跳过一些像素),从而扩大了感受野而无需增加参数数量或计算成本[^4]。 #### 感受野扩大的原理 传统卷积每次滑动窗口时会覆盖相邻的像素点,而dilated convolution则允许跳跃式的采样。这种设计使得即使保持相同的参数规模,也能捕获更大范围的空间信息。例如,在图像分割任务中,这有助于更好地理解上下文关系并提高特征提取能力。 ```python import torch.nn as nn class DilatedConvExample(nn.Module): def __init__(self, in_channels, out_channels, kernel_size=3, dilation=2): super(DilatedConvExample, self).__init__() self.dilated_conv = nn.Conv2d(in_channels, out_channels, kernel_size, padding=dilation, dilation=dilation) def forward(self, x): return self.dilated_conv(x) ``` 上述代码展示了如何定义一个具有扩张率`dilation=2`的二维dilated convolution层。这里的关键在于设置`padding`等于`dilation`以维持输入输出尺寸一致。 #### 多尺度目标检测中的应用挑战 尽管dilated convolution能够有效捕捉不同尺度的目标,但在实际应用中单独依赖此技术处理多尺度物体可能不够理想。比如当尝试利用较大的dilation rate去识别近距离的大车时,可能会忽略远处的小型车辆;反之亦然。因此单纯增大或者减小dilation rate并非最佳解决方案,因为这样会造成资源浪费以及效率低下[^2]。 #### 频率自适应空洞卷积(FADC)介绍 针对这些问题,Frequency-Adaptive Dilated Convolution (FADC)被提出作为一种改进方案。该方法可以根据特定场景动态调整合适的dilation rates,进而优化性能表现。相比固定配置下的常规做法更加灵活高效[^3]。 另外值得注意的是虽然现代基于transformer架构能够在更广阔的视野范围内取得优异成绩但由于其高昂运算需求限制了部署可能性所以在某些情况下合理运用诸如fadc这样的轻量化工具仍然是必要的选择之一.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值