Dive into deep learning(05)[动手学深度学习]———————第五章，卷积神经网络

最新推荐文章于 2025-04-24 17:40:18 发布

梦想实干家杭77

最新推荐文章于 2025-04-24 17:40:18 发布

阅读量707

点赞数

文章标签：深度学习 cnn 神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_52542715/article/details/127236973

版权

本文深入探讨卷积神经网络（CNN），从全连接层过渡到卷积的原因，详细解释卷积层、填充和步幅的概念，以及多输入多输出通道的作用。讨论CNN在图像处理中的应用，包括LeNet架构，并涉及汇聚层的不同类型。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

- Dive into deep learning(05)[动手学深度学习]———————第五章，卷积神经网络

Dive into deep learning(05)[动手学深度学习]———————第五章，卷积神经网络

前言：和别的深度学习教学相比，李沐老师的视频真的是。相见恨晚呐

本章摘要：

1、从全连接层到卷积(why-conv)

这里主要是概念的引出。

由于真实图片像素巨大，像之前感知机里面把图片展平做全连接显然不可能，而且图片有空间信息，这也意味着展平会损失这些信息，因此我们的输入应该仍旧是一个矩阵。

矩阵的全连接层是可以实现的。

但是，现在一张图片的像素动不动就千万级别，光是输入层到隐藏层就有千万级别的输入，更别提后面的模型训练了，因此需要先把图片压缩。由此引出了卷积。

在矩阵的全连接层的基础上，基于两个图片拥有的性质。一个是平移不变性，还有一个是局部性，这两个性质让原本的数据得以压缩。使得全连接层的参数大大减少。

（关于具体推导可以看李沐老师的视频，但我自己打算有空的时候额外写一篇记录一下，这里插个眼）

作业：
为什么平移不变性可能也不是好主意呢？
卷积层也适合于文本数据吗？为什么？
（这两个问题记录一下）
函数记录：

2、图像卷积(conv-layer)

卷积的名称其实是引用了傅里叶变换里的卷积，好像还有什么滤波器，深度学习里的卷积公式其实与傅里叶变换中的卷积公式不同。但两者相差不大，且直接用傅里叶变换里的卷积公式也是一样的效果，只不过为了方便，简化了公式，其为互相关计算公式。

之前的神经网络是为了计算权重w和偏置b，而这里的卷积是为了计算卷积核和偏置，卷积核可以看作是权重w的矩阵。卷积核最后可以从提取图片特征这一个点上理解。例如一个关于猫的卷积分类器，一张图片经过卷积可能提取出了有胡须，有鼻子，有眼睛或者更小的类似瞳孔毛发等这些特征信息。在经过多层卷积后，这些细微的特征会不断被放大。最后再通过全连接层，这里的全连接层可以理解为特征的线性组合，可能从图片里提取出来的特征还有狗脚什么的，经过权重分配，最后计算概率。

作业：

函数记录：

3、填充和步幅(padding-and-strides)

这是两个超参数
填充的目的是可以更多的提取边缘信息。
步幅的作用是调节数据维度，并且可以减小数据量。

作业：
对于音频信号，步幅 2 说明什么？

函数记录：
``

4、多输入多输出通道(channels)

在最流行的神经网络架构中，随着神经网络层数的加深，我们常会增加输出通道的维数，通过减少空间分辨率以获得更大的通道深度。直观地说，我们可以将每个通道看作是对不同特征的响应。而现实可能更为复杂一些，因为每个通道不是独立学习的，而是为了共同使用而优化的。因此，多输出通道并不仅是学习多个单通道的检测器。

更直白的说就是不断减小数据矩阵形状大小，不断增

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。