从图感受深度学习中的各种卷积

最新推荐文章于 2024-11-28 16:39:16 发布

qiling0102

最新推荐文章于 2024-11-28 16:39:16 发布

阅读量379

点赞数

分类专栏：计算机学习

本文链接：https://blog.youkuaiyun.com/qiling0102/article/details/90376725

版权

本文详细介绍了深度学习中不同类型的卷积，包括3D卷积、转置卷积、扩张卷积、可分卷积和分组卷积，通过实例解析了它们的工作原理和应用场景，帮助读者理解和掌握这些卷积类型在模型设计中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

如果你听说过深度学习中不同种类的卷积（比如 2D / 3D / 1x1 /转置/扩张（Atrous）/空间可分/深度可分/平展/分组/混洗分组卷积），并且搞不清楚它们究竟是什么意思，那么这篇文章就是为你写的，能帮你理解它们实际的工作方式。

在这篇文章中，我会归纳总结深度学习中常用的几种卷积，并会试图用一种每个人都能理解的方式解释它们。除了本文之外，还有一些关于这一主题的好文章，请参看原文。

希望本文能帮助你构建起对卷积的直观认知，并成为你研究或学习的有用参考。

本文目录

3D 卷积
1×1 卷积
卷积算术
转置卷积（去卷积、棋盘效应）
扩张卷积
可分卷积（空间可分卷积，深度可分卷积）
平展卷积
分组卷积
混洗分组卷积
逐点分组卷积

一、3D 卷积

**
我们看到我们实际上是对一个 3D 体积执行卷积。但通常而言，我们仍在深度学习中称之为 2D 卷积。这是在 3D 体积数据上的 2D 卷积。过滤器深度与输入层深度一样。这个 3D 过滤器仅沿两个方向移动（图像的高和宽）。这种操作的输出是一张 2D 图像（仅有一个通道）。
很自然，3D 卷积确实存在。这是 2D 卷积的泛化。下面就是 3D 卷积，其过滤器深度小于输入层深度（核大小<通道大小）。因此，3D 过滤器可以在所有三个方向（图像的高度、宽度、通道）上移动。在每个位置，逐元素的乘法和加法都会提供一个数值。因为过滤器是滑过一个 3D 空间，所以输出数值也按 3D 空间排布。也就是说输出是一个 3D 数据。
在这里插入图片描述
在 3D 卷积中，3D 过滤器可以在所有三个方向（图像的高度、宽度、通道）上移动。在每个位置，逐元素的乘法和加法都会提供一个数值。因为过滤器是滑过一个 3D 空间，所以输出数值也按 3D 空间排布。也就是说输出是一个 3D 数据。
与 2D 卷积（编码了 2D 域中目标的空间关系）类似，3D 卷积可以描述 3D 空间中目标的空间关系。对某些应用（比如生物医学影像中的 3D 分割/重构）而言，这样的 3D 关系很重要，比如在 CT 和 MRI 中，血管之类的目标会在 3D 空间中蜿蜒曲折。

二、转置卷积（反卷积）

对于很多网络架构的很多应用而言，我们往往需要进行与普通卷积方向相反的转换，即我们希望执行上采样。例子包括生成高分辨率图像以及将低维特征图映射到高维空间，比如在自动编码器或形义分割中。（在后者的例子中，形义分割首先会提取编码器中的特征图，然后在解码器中恢复原来的图像大小，使其可以分类原始图像中的每个像素。）
实现上采样的传统方法是应用插值方案或人工创建规则。而神经网络等现代架构则倾向于让网络自己自动学习合适的变换，无需人类干预。为了做到这一点，我们可以使用转置卷积。
我们一直都可以使用直接的卷积实现转置卷积。对于下图的例子，我们在一个 2×2 的输入（周围加了 2×2 的单位步长的零填充）上应用一个 3×3 核的转置卷积。上采样输出的大小是 4×4。
将 2×2 的输入上采样成 4×4 的输出
有趣的是，通过应用各种填充和步长，我们可以将同样的 2×2 输入图像映射到不同的图像尺寸。下面，转置卷积被用在了同一张 2×2 输入上（输入之间插入了一个零，并且周围加了 2×2 的单位步长的零填充），所得输出的大小是 5×5。
将 2×2 的输入上采样成 5×5 的输出
观察上述例子中的转置卷积能帮助我们构建起一些直观认识。但为了泛化其应用，了解其可以如何通过计算机的矩阵乘法实

最低0.47元/天解锁文章