文章目录
Dive into deep learning(05)[动手学深度学习]———————第五章,卷积神经网络
前言:和别的深度学习教学相比,李沐老师的视频真的是。相见恨晚呐
本章摘要:
1、从全连接层到卷积(why-conv)
这里主要是概念的引出。
由于真实图片像素巨大,像之前感知机里面把图片展平做全连接显然不可能,而且图片有空间信息,这也意味着展平会损失这些信息,因此我们的输入应该仍旧是一个矩阵。
矩阵的全连接层是可以实现的。
但是,现在一张图片的像素动不动就千万级别,光是输入层到隐藏层就有千万级别的输入,更别提后面的模型训练了,因此需要先把图片压缩。由此引出了卷积。
在矩阵的全连接层的基础上,基于两个图片拥有的性质。一个是平移不变性,还有一个是局部性,这两个性质让原本的数据得以压缩。使得全连接层的参数大大减少。
(关于具体推导可以看李沐老师的视频,但我自己打算有空的时候额外写一篇记录一下,这里插个眼)
作业:
为什么平移不变性可能也不是好主意呢?
卷积层也适合于文本数据吗?为什么?
(这两个问题记录一下)
函数记录:
2、图像卷积(conv-layer)
卷积的名称其实是引用了傅里叶变换里的卷积,好像还有什么滤波器,深度学习里的卷积公式其实与傅里叶变换中的卷积公式不同。但两者相差不大,且直接用傅里叶变换里的卷积公式也是一样的效果,只不过为了方便,简化了公式,其为互相关计算公式。
之前的神经网络是为了计算权重w和偏置b,而这里的卷积是为了计算卷积核和偏置,卷积核可以看作是权重w的矩阵。卷积核最后可以从提取图片特征这一个点上理解。例如一个关于猫的卷积分类器,一张图片经过卷积可能提取出了有胡须,有鼻子,有眼睛或者更小的类似瞳孔毛发等这些特征信息。在经过多层卷积后,这些细微的特征会不断被放大。最后再通过全连接层,这里的全连接层可以理解为特征的线性组合,可能从图片里提取出来的特征还有狗脚什么的,经过权重分配,最后计算概率。
作业:
函数记录:
3、填充和步幅(padding-and-strides)
这是两个超参数
填充的目的是可以更多的提取边缘信息。
步幅的作用是调节数据维度,并且可以减小数据量。
作业:
对于音频信号,步幅 2 说明什么?
函数记录:
``
4、多输入多输出通道(channels)
在最流行的神经网络架构中,随着神经网络层数的加深,我们常会增加输出通道的维数,通过减少空间分辨率以获得更大的通道深度。直观地说,我们可以将每个通道看作是对不同特征的响应。而现实可能更为复杂一些,因为每个通道不是独立学习的,而是为了共同使用而优化的。因此,多输出通道并不仅是学习多个单通道的检测器。
更直白的说就是不断减小数据矩阵形状大小,不断增