d2l卷积神经网络学习笔记（1）

Tsparkle

已于 2022-03-14 19:33:06 修改

阅读量3.8k

点赞数

CC 4.0 BY-SA版权

分类专栏：学习之路文章标签： cnn 学习深度学习

于 2022-03-10 15:22:22 首次发布

本文链接：https://blog.youkuaiyun.com/Tsparkle/article/details/123400554

学习之路专栏收录该内容

6 篇文章

订阅专栏

本文深入探讨卷积神经网络（CNN）的特征学习机制，阐述卷积核如何降低输入图像的复杂性，并分析奇数卷积核在保持输出尺寸和中心点对齐上的优势。此外，讨论了步幅和填充对输出尺度的影响，以及偏置在反向传播中的作用。同时提醒读者在阅读代码时要留意尺寸调整的细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.由于输入数据为图像，1024*1024*3水平的特征数量难以处理，通过引入卷积核进行对输入图像像素的批量卷积（或者按照d2l的说法，互相关运算，我觉得这个描述更能体现卷积核在其感受野内对图像小范围整体学习的特性）进行整体层面的特征学习。

2.通过调节卷积核，可以方便的降低特征数量。单通道stride为1且不考虑填充情况下，对a*b尺寸的图像通过一个c*d尺寸的卷积核，能够将a*b像素代表的信息压缩到（a-c+1）*（b-d+1），而更加重要的是，我们将需要反向传播优化的特征信息从全连接方法的a*b降低到了可以自由调节的c*d。

3.关于卷积核大小，d2l里提出：

卷积神经网络中卷积核的高度和宽度通常为奇数，例如1、3、5或7。选择奇数的好处是，保持空间维度的同时，我们可以在顶部和底部填充相同数量的行，在左侧和右侧填充相同数量的列。

这句话可以这样理解，对2中例子a-c+1，当c为奇数时，显然为保证输出a-c+1与输入a有相同维度只需要增补偶数行即可。另外注意，对行列进行了增补代表卷积核运算的中心点（这也是奇数卷积核的优势，使用偶数卷积核由于找不到卷积的中心点会使得偶数卷积核不对称，导致在填充的时候像素特征不断偏移）和对应输出的值位置是不变的，即输出Y[i, j]是通过以输入X[i, j]为中心，与卷积核进行互相关计算得到的。

4.当存在步幅stride时，设垂直步幅e水平步幅f，则2中例子的输出尺度将变为（a-c+e+p）/e（向下取整），p为增加的行数。另外，可以将stride操作理解为采样，通过设置不同的stride对输入信号进行周期不同的采样