一二三维卷积

最新推荐文章于 2025-04-07 16:45:25 发布

转载最新推荐文章于 2025-04-07 16:45:25 发布 · 547 阅读

2 ·

CC 4.0 BY-SA版权

原文链接：https://www.zhihu.com/question/22298352

文章标签：

#卷积 #机器学习 #python

算法面试专栏收录该内容

9 篇文章

订阅专栏

二维卷积

图中的输入的数据维度为 14 × 14 ，过滤器大小为 5 × 5，二者做卷积，输出的数据维度为 10 × 10（ 14 − 5 + 1 = 10 ）。
• 上述内容没有引入channel的概念，也可以说channel的数量为1。如果将二维卷积中输入的channel的数量变为3，即输入的数据维度变为（14 × 14 × 3）。由于卷积操作中过滤器的 channel 数量必须与输入数据的channel数量相同，过滤器大小也变为 5 × 5 × 3 。在卷积的过程中，过滤器与数据在 channel 方向分别卷积，之后将卷积后的数值相加，即执行 10 × 10 次3个数值相加的操作，最终输出的数据维度为 10 × 10 。
• 以上都是在过滤器数量为1的情况下所进行的讨论。如果将过滤器的数量增加至16，即16个大小为10 × 10 × 3 的过滤器，最终输出的数据维度就变为10 × 10 × 16 。可以理解为分别执行每个过滤器的卷积操作，最后将每个卷积的输出在第三个维度（channel 维度）上进行拼接。
• 二维卷积常用于计算机视觉、图像处理领域。
一维卷积
在这里插入图片描述
图中的输入的数据维度为8，过滤器的维度为5。与二维卷积类似，卷积后输出的数据维度为8−5+1=4。•如果过滤器数量仍为1，输入数据的channel数量变为16，即输入数据维度为 8 × 16 。这里channel的概念相当于自然语言处理中的embedding，而该输入数据代表8个单词，其中每个单词的词向量维度大小为16。在这种情况下，过滤器的维度由5变为 5 × 16 ，最终输出的数据维度仍为 4 。•如果过滤器数量为 n，那么输出的数据维度就变为 4 × n。• 一维卷积常用于序列模型，自然语言处理领域。
三维卷积
在这里插入图片描述
假设输入数据的大小为 a1 × a2 × a3，channel数为 c，过滤器大小为f，即过滤器维度为 f × f × f × c（一般不写 channel 的维度），过滤器数量为 n。• 基于上述情况，三维卷积最终的输出为 ( a1 − f + 1 ) × ( a2 − f + 1 ) × ( a3 − f + 1 ) × n 。该公式对于一维卷积、二维卷积仍然有效，只有去掉不相干的输入数据维度就行。• 三维卷积常用于医学领域（CT影响），视频处理领域（检测动作及人物行为）。
可以将滤波器与输入图像进行卷积来产生输出图像，那么什么是卷积操作呢？具体的步骤如下：
在图像的某个位置上覆盖滤波器；将滤波器中的值与图像中的对应像素的值相乘；把上面的乘积加起来，得到的和是输出图像中目标像素的值；对图像的所有位置重复此操作。
卷积的作用
求卷积的滤波器通常称为索伯滤波器，也是边缘检测器。
卷积操作的用处在于用输出图像中更亮的像素表示原始图像中存在的边缘。卷积有助于帮助找到特定的局部图像特征（比如边缘），用到后面的网络中。
填充，如果希望输出图像和输入图像大小相同，需要在图像周围添加零，可以在更多的位置叠加过滤器。
池化
图像中相邻像素倾向于具有相似的值，因此卷积层相邻的输出像素也具有相似的值。所以卷积层输出中也包含了冗余信息。
如果使用边缘检测器并在某个位置找到强边缘，那么也可能会在距离这个像素1个偏移的位置找到相对较强的边缘，但是他们都一样是边缘，没有找到新东西。
池化层就是通过减小输入的大小降低输出值的数量。一般通过最大最小值或者平均操作来完成。