CNN、RNN学习笔记（自用）

原创

已于 2024-11-07 22:43:07 修改 · 1.2k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#cnn #rnn #dnn

于 2024-02-23 16:30:59 首次发布

应用场景

CNN：卷积神经网络，专门用于图像处理的神经网络，能够自动学习图像中的特征数据，在图像识别、对象检测和自动驾驶中表现出色；
RNN：循环神经网络，具有时间序列处理能力，捕捉序列中的长期依赖关系，在NLP、语音识别、机器翻译中表现出色；
DNN：深度神经网络，可以处理各种数据，包括图像、文本、时间序列，能够学习复杂的表示，在图像识别、自然语言处理、推荐系统等场景中都可使用。

相关概念

CNN

局部感受野：卷积神经网络将每一个隐藏节点仅连接到图像的某个局部区域，减少参数训练的数量。如一张1024*720的图像，使用9*9的感受野，则只需要81个权值参数，更关注局部信息。
共享权值：在卷积神经网络的卷积层中，神经元对应的权值相同，即每个神经元连接数据窗的权重是固定的，每个神经元只关注一个特征。共享的权值和偏置也称为卷积核或滤波器。比如边缘检测专用的Sobel滤波器，即卷积层的每个滤波器都会有自己所关注一个图像特征，比如垂直边缘，水平边缘，颜色，纹理等等，这些所有神经元加起来就好比就是整张图像的特征提取器集合。
池化：通过下采样的过程，对执行卷积操作后的图像进行类似于压缩的操作。两种类型，一种是最大值池化 Max Pooling（更常用），一种是平均值池化 Mean/Average Pooling。

最大值池化，是取当前池化视野中所有元素的最大值，输出到下一层特征图中。

平均值池化，是取当前池化视野中所有元素的平均值，输出到下一层特征图中。

池化作用：

在减少参数量的同时，还保留了原图像的原始特征
有效防止过拟合
为卷积神经网络带来平移不变性
维持同尺寸图片，便于后端处理：假设输入的图片不是一样大小的，就需要用池化来转换成同尺寸图片

平移不变性说明：

虽然池化之前两幅图片的眼睛特征不在一个位置，但是经过池化之后，眼睛特征的位置都是相同的

feature map:在cnn的每个卷积层，数据都是以三维形式存在的。可以把它看成许多个二维图片叠在一起（像豆腐皮竖直的贴成豆腐块一样），其中每一个称为一个feature map。在输入层，如果是灰度图片，那就只有一个feature map；如果是彩色图片（RGB），一般就是3个feature map（红绿蓝）

层与层之间会有若干个卷积核（kernel）（也称为过滤器），卷积核深度与初始图片的通道数一致。

上一层所有feature map 对应的 跟某个卷积核的所有层做卷积，结果相加（或者再加上偏置），都会产生下一层的一个feature map，有N个卷积核，下层就会产生N个feather map。即：输入图片不论通道数是1（灰色）还是3（彩色）or其他值，经过卷积核处理后，都会统一拍平成深度为1的feature map。有几个卷积核就生成几个feature map，与输入图片的通道数无关。

多个feature map作用：我们希望构造一组基，这组基能够形成对于一个事物完备的描述，例如描述一个人时我们通过描述身高/体重/相貌等，在卷积网中也是如此。在同一层，我们希望得到对于一张图片多种角度的描述，具体来讲就是用多种不同的卷积核对图像进行卷，得到不同核（这里的核可以理解为描述）上的响应，作为图像的特征。他们的联系在于形成图像在同一层次不同基上的描述。

RNN

(a) 全连接式

（b）自己对自己

RNN关注隐层每个神经元在时间维度上的不断成长与进步，变换一下3D的视角，网络结构不变，没有添加新的神经元，但是沿着时间轴recurrent，也就是重复，建立时序上的关联，这里的层级扩展并非神经元数量的真实增加，而是表示隐层在不同时刻的状态。RNN本质上是用一种看似是级联，但实际上却是沿着时序，反复迭代的网络结构，实现了对序列数据的学习。

假如用 $W{s}$ 来表示层级间的权重矩阵，RNN通常会假定不同的层，其实也就是不同的时刻共享一个 $W{s}$ ，这样可以有效地减少训练参数。