阅读笔记3——空洞卷积

空洞卷积在深度学习中的应用与原理

原创

已于 2023-02-25 10:40:01 修改 · 881 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #cnn #计算机视觉 #人工智能

于 2023-02-16 12:06:46 首次发布

空洞卷积是一种在不增加参数量的情况下增大感受野的技术，常用于图像分割和物体检测。它通过在卷积核中添加空洞，以稀疏的方式采样特征图，从而保持高分辨率的同时扩大影响范围。然而，空洞卷积可能导致信息丢失和远距离信息的相关性减弱。在PyTorch中，可以通过设置dilation参数实现空洞卷积。

空洞卷积

1. 背景

空洞卷积（Dilated Convolution）最初是为解决图像分割的问题而提出的。常见的图像分割算法通常使用池化层来增大感受野，同时也缩小了特征图尺寸，然后再利用上采样还原图像尺寸。特征图先缩小再放大的过程造成了精度上的损失，因此需要有一种操作可以在增加感受野的同时保持特征图的尺寸不变，从而替代池化与上采样操作，在这种需求下，空洞卷积就诞生了。

在近几年的物体检测发展中，空洞卷积也发挥了重要的作用。因为虽然物体检测不要求逐像素地检测，但是保持特征图的尺寸较大，对于小物体的检测及物体的定位来说也是至关重要的。

2. 卷积过程

空洞卷积，顾名思义就是卷积核中间带有一些洞，跳过一些元素进行卷积。在此以3x3卷积为例，其中，图1 a)是普通的卷积过程，在卷积核紧密排列在特征图上滑动计算，而图1 b)代表了空洞数为2的空洞卷积，可以看到，在特征图上每2行或者2列选取元素与卷积核卷积。类似地，图1 c)代表了空洞数为3的空洞卷积。

图1 普通卷积与空洞卷积的对比

在代码实现时，空洞卷积有一个额外的超参数dilation rate,表示空洞数，普通卷积dilation rate默认为1，图1 中的b与c的dilation rate分别为2与3。
在图1中，同样的一个3X3卷积，却可以起到5X5、7X7等卷积的效果。可以看出，空洞卷积在不增加参数量的前提下，增大了感受野。假设空洞卷积的卷积核大小为 $k$ ,空洞数为 $d$ ,则其等效卷积核大小 $k^{'}$