空洞卷积、可变形卷积、可变形ROI Pooling

最新推荐文章于 2024-07-19 14:43:16 发布

原创

最新推荐文章于 2024-07-19 14:43:16 发布 · 2.1k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #目标检测 #计算机视觉

本文详细介绍了空洞卷积（Dilated Convolution）和可变形卷积（Deformable Convolution）的概念，以及它们在深度学习中的应用。空洞卷积通过在卷积核中插入空洞来扩大感受野，适用于目标检测和分割任务，而可形变卷积则允许在卷积过程中学习附加的偏移量，以适应不规则形状的目标，两者都是为了解决传统卷积的局限性。此外，还提及了可形变ROIPooling，它是对ROIPooling的扩展，增强了对目标区域的适应性。这些技术对于捕捉多尺度上下文信息和处理复杂形状的目标具有重要意义。

为什么要提空洞卷积、可形变卷积、可形变ROI池化？
答：这些技术的提出与卷积核的感受野有关系，感受野指的是：特征图在原图上的映射区域，一般来说使用更大的卷积核和池化会增大感受野的大小（或者使用卷积+池化的操作），但是这种提升有限或者会损失精度。空洞卷积、可形变卷积、可形变ROI池化能够在不损失较多精度的情况下，有效增大感受野。

空洞卷积（Dilated Convolution）

基本原理：Dilated/Atrous Convolution(中文叫做空洞卷积或者膨胀卷积) 或者是 Convolution with holes 从字面上就很好理解，是在标准的 convolution map 里注入空洞，以此来增加 reception field。相比原来的正常convolution，dilated convolution 多了一个 hyper-parameter 称之为 dilation rate，指的是kernel的间隔数量(e.g. 正常的 convolution 是 dilatation rate 1)。
感受野计算公式
PyTorch实现：在Conv2d中使用参数dilation来实现
空洞卷积的好处：
- 扩大感受野：在deep net中为了增加感受野且降低计算量，总要进行降采样(pooling或s2/conv)，这样虽然可以增加感受野，但空间分辨率降低了。为了能不丢失分辨率（持怀疑态度），且仍然扩大感受野，可以使用空洞卷积。这在检测，分割任务中十分有用。一方面感受野大了可以检测分割大目标，另一方面分辨率高了可以精确定位目标。
- 捕获多尺度上下文信息：空洞卷积有一个参数可