卷积和池化操作对图片尺寸改变

本文详细解析了卷积神经网络中的卷积和池化操作,包括输入图像尺寸、通道数、卷积核尺寸、步幅、Padding等关键参数对输出图像尺寸的影响。并对比了VALID和SAME两种填充方式,以及提供了具体的计算公式和实例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

卷积操作

对于输入图像尺寸为Nw∗NhN_w * N_hNwNh,图片通道数为C,那么 j假设卷积核尺寸为FxF,通道数也为C 步幅为S,Padding使用P,经过该卷积层后输出的图像尺寸为WxH:

图片宽度

W=⌊Nw+2P−FS+1⌋ W=\left \lfloor \frac{N_w+2P-F}{S} +1 \right \rfloor W=SNw+2PF+1
图片长度
H=⌊Nh+2P−FS+1⌋ H=\left \lfloor \frac{N_h+2P-F}{S} +1 \right \rfloor H=SNh+2PF+1

假设卷积核的个数为 T,那么之后输出图片大小为 W∗HW*HWH ,通道数为T

具体过程可以参考下面的吴恩达教授的关于卷积神经网络的教程
教程链接:https://mooc.study.163.com/course/2001281004#/info
在这里插入图片描述
最近碰到的总是TF中的参数问题,其中一个padding的参数值设置觉得比较重要。tf中padding提供两种填充方式:VALID和SAME。

对于VALID,就是不填充,进行卷积,再除以步长,输出的形状计算如下:
W=⌊W−FS+1⌋ W=\left \lfloor \frac{W-F}{S} +1 \right \rfloor W=SWF+1

对于SAME,即卷积之后填充,仅仅除以步长,输出的形状计算如下:

W=⌊WS+1⌋ W=\left \lfloor \frac{W}{S} +1 \right \rfloor W=SW+1

池化操作

对于输入图像尺寸为W∗HW * HWH,图片通道数为C,那么 假设池化核尺寸为FxF,通道数也为C 步幅为S,Padding使用P,经过池化后输出的图像尺寸为WxH:
公式和池化操作一样

图片宽度

W=⌊W+2P−FS+1⌋ W=\left \lfloor \frac{W+2P-F}{S} +1 \right \rfloor W=SW+2PF+1
图片高度
H=⌊H+2P−FS+1⌋ H=\left \lfloor \frac{H+2P-F}{S} +1 \right \rfloor H=SH+2PF+1


在这里插入图片描述
但,一般来说,池化操作的步长等于池化核的尺寸,而且池化一般不进行填充,所以公式

图片宽度
W=⌊W−FF+1⌋ W=\left \lfloor \frac{W-F}{F} +1 \right \rfloor W=FWF+1
图片高度
H=⌊H−FF+1⌋ H=\left \lfloor \frac{H-F}{F} +1 \right \rfloor H=FHF+1

举例:

当进行池化操作时,步长S就等于池化核的尺寸,如输入为30x30,池化核为5x5,则输出为
30−55+1=6 \frac{30-5}{5}+1=6 5305+1=6

当进行池化操作时,步长S就等于池化核的尺寸,如输入为30x30,池化核为7x7,则输出为
30−77+1=4.3=4 \frac{30-7}{7}+1=4.3=4 7307+1=4.3=4
就是向下取整,取最小的整数,即为4.3,也是 取4

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值