【DL】卷积基础操作: Kernel, Padding, Stride & Column

本文介绍了卷积神经网络中的基本概念,包括Kernel(卷积核)的大小,Column(层数),Stride(步长)以及Padding(填充)。卷积核通常为奇数正方形,Column指的是卷积核的深度,Stride决定了卷积的移动步长,Padding用于保持图像边缘信息。通过公式推导了卷积后特征图的大小关系,帮助理解卷积操作。

Backto DeepLearning Index

一般在模型表述中,卷积操作的简写类似 k(3,3)-c512-s1-p1, 其中 k 代表 kernel(大小), c 代表 column(层数),s 代表 stride(步长), p 代表 padding(填充数量)。这四个是卷积操作的基本属性。

Kernel 卷积核

一般为奇数正方形,如 3x3, 7x7

Column

Kernel 的深度或者说层数

Stride

Kernel 移动的步长,Stride 其实就是一个 down-sampling 的过程。

Padding

为保留图像边缘信息而在四周进行padding(一般为0)。

卷积前后特征图的大小关系为

在这里插入图片描述
助记: 本来的尺寸是 n i n n_{in}

<think>我们正在讨论卷积操作对特征图尺寸的影响。关键点在于卷积操作中的步长(stride)和填充(padding)以及卷积核尺寸(kernel_size)共同决定输出特征图的尺寸。但是,在卷积操作中,当步长大于1时,特征图会缩小。而卷积核尺寸本身并不直接导致特征图缩小,但是它在卷积操作的计算公式中,与步长和填充一起影响输出尺寸。 然而,用户引用的句子是:“卷积核尺寸:kernel_size越大,特征图缩小越快”。这句话需要结合卷积操作的输出尺寸公式来理解。 卷积操作输出尺寸公式为: output_size = floor( (input_size + 2*padding - kernel_size) / stride ) + 1 在这个公式中,对于固定的输入尺寸、步长和填充,当kernel_size增大时,分子(input_size + 2*padding - kernel_size)会减小,因此输出尺寸也会减小。也就是说,在同样的步长和填充条件下,使用更大的卷积核会导致输出特征图的尺寸变得更小。这就是“kernel_size越大,特征图缩小越快”的含义。 但是,需要注意的是,在实际应用中,我们通常不会单独增大卷积核而不调整其他参数。例如,在VGG网络中,使用连续的3x3卷积(并配合填充1)来保持特征图尺寸不变,直到使用池化层进行下采样。而如果使用较大的卷积核(如5x5或7x7)且不填充,那么特征图尺寸会迅速减小。 因此,我们可以这样解释: 当卷积核尺寸增大时,在同样的步长和填充设置下,输出特征图的尺寸会减小。如果网络中使用多个大卷积核,那么特征图的尺寸会更快地缩小(即经过更少的层数就变得很小)。 举例说明: 假设输入尺寸为5x5,卷积步长为1,填充为0: 使用3x3卷积核:输出尺寸 = (5 + 0 - 3)/1 + 1 = 3 使用5x5卷积核:输出尺寸 = (5 + 0 - 5)/1 + 1 = 1 因此,同样的输入,使用5x5卷积核比3x3卷积核输出的特征图尺寸更小(从3x3变为1x1)。如果网络中有多层卷积,那么使用大卷积核会加速特征图尺寸的缩减。 另外,在相同的下采样次数(即池化层或步长为2的卷积层)下,如果卷积层使用更大的卷积核,那么在这些下采样层之间,特征图可能因为卷积操作而进一步缩小(如果填充不够的话),从而使得整个网络的特征图尺寸缩小得更快。 所以,这句话的理解是:在卷积操作中,卷积核越大,在同样的步长和填充条件下,输出特征图尺寸越小,因此在网络中层数不多的情况下,特征图尺寸就会变得很小,即“缩小越快”。 现在,根据要求,我们将在回答后提出3-5个相关问题。 </think> ### 理解“卷积核尺寸越大,特征图缩小越快”的原理 在卷积神经网络中,这个现象可以通过**卷积操作的数学本质**来解释。核心在于卷积操作的输出尺寸计算公式: ```python 输出尺寸 = (输入尺寸 + 2×填充 - 卷积核尺寸) / 步长 + 1 ``` #### 📐 关键机制分析: 1. **边界效应**: - 卷积核在图像边缘滑动时,中心点无法覆盖边缘像素 - 尺寸为K的卷积核,每边会损失`(K-1)/2`个像素 - 示例: - 3×3卷积核:每边损失1像素 → 总损失2像素 - 7×7卷积核:每边损失3像素 → 总损失6像素 2. **尺寸缩小加速原理**: ```mermaid graph LR A[输入特征图 7×7] --> B[3x3卷积] --> C[输出5×5] A --> D[5x5卷积] --> E[输出3×3] A --> F[7x7卷积] --> G[输出1×1] ``` - 相同输入下: - 3×3卷积:尺寸减少2 (7→5,缩小28.6%) - 5×5卷积:尺寸减少4 (7→3,缩小57.1%) - 7×7卷积:尺寸减少6 (7→1,缩小85.7%) #### 🔍 实际网络中的表现: 以AlexNet第一层为例: ```python 输入:227×227 RGB图像 卷积核:11×11,步长=4 输出计算:(227 + 0 - 11)/4 + 1 = 55 → 55×55特征图 ``` - 若改用3×3卷积核(同参数): ```python (227 + 0 - 3)/4 + 1 = 57 → 57×57特征图 ``` - 对比:11×11核使尺寸多缩小2个单位(约3.5%) #### ⚖️ 设计权衡: | 卷积核尺寸 | 感受野优势 | 尺寸缩小代价 | 典型应用场景 | |------------|------------|--------------|--------------| | 小(1×1) | 极小 | 几乎不缩小 | 通道降维 | | 中(3×3) | 适中 | 适度缩小 | 主流选择 | | 大(7×7) | 极大 | 急剧缩小 | 早期网络 | > 💡 **现代解决方案**: > 使用**连续小卷积替代大卷积**(如2个3×3卷积替代1个5×5卷积> - 获得相同感受野(5×5) > - 尺寸缩小更平缓(每次缩小2像素) > - 参数更少(2×3²=18 vs 5²=25)
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值