大模型交叉研讨课-学习笔记1

最新推荐文章于 2024-10-25 10:50:10 发布

原创最新推荐文章于 2024-10-25 10:50:10 发布 · 285 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #笔记

深度学习专栏收录该内容

4 篇文章

订阅专栏

RNN是一种神经网络，其隐藏状态由上一层和当前输入决定，权重共享。它能处理变长输入，但存在梯度消失或爆炸问题。为了解决这一问题，出现了GRU和LSTM，它们引入了门控机制。LSTM有单元状态，能更好地保留长期依赖。此外，CNN用于提取局部特征，适合并行计算。

RNN

在这里插入图片描述
其中一个神经单元的隐藏状态 $h_i$ 由上一层隐藏状态 $h_{i-1}$ 和输入 $x_i$ 决定， $W_i$ 是权重矩阵， $b$ 是偏置矩阵，在RNN中所有层的参数是共享的，即每一层的权重矩阵和偏置矩阵都是相同的。

举个例子，“never too late to” ，用RNN预测“to”后面的词，首先用one-hot向量表示第一个词，再通过embedding得到更丰富含有更多信息的词向量（word2vec），再通过上一个隐藏状态计算出当前层的隐藏状态，依此类推。其中 $h_0$ 是随机初始化的。当计算得到 $h_4$ 之后，在输出层进行一个线性层，一般通过softmax计算出预测每个词的概率分布。
在这里插入图片描述

优点：

能够处理任意长度的输入。
模型大小不会随着输入的变长而变大。
在每个时间步的权重是共享的。
理论上，计算第 $i$ 步能包含前面的很多信息。

缺点：

计算速度慢。
实际上，随着时间不往后推移，后面的时间步很难获取到离他很远的时间步的信息。

梯度消失或爆炸问题

因为反向转播时根据链式法则，要求下游梯度，需要用上游梯度*本地梯度（一层一层嵌套）。当梯度>1时，随着层数的增加梯度会呈指数增长，梯度会爆炸；当梯度<1时，随着层数的增加梯度会呈指数衰减，梯度会消失。
在这里插入图片描述

RNN的变体解决梯度问题

在计算的时候

GRU：将门控机制引入到RNN。
- 更新门:权重值会改变。
- 重置门：权重值会改变。
  重置门通过影响上一层隐藏状态来得到一个新的激活：
  更新门通过衡量上一个隐藏状态和新的激活之间的影响得到最终的 $h_i$
LSTM: 多了一个单元状态cell state $C_t$
- 第一个门是遗忘门，决定上一状态哪些信息要在当前状态丢弃。 $W_f$ 是遗忘门的专属矩阵， $b_f$ 也是专属的bias。 $h_{i-1},x_t]$ 代表将输入和上一隐藏状态进行连接concatenate。 $σ\sigma$ 代表一个激活函数，最终计算结果介于0-1之间，若 $f_t=0$ ，将丢弃过去的信息。
- 输入门决定待选信息 $C~t\tilde{C}_t$ 中有哪些信息需要保留到 $C_t$ 中。同样计算输入门 $i_t$ 和待选信息 $C~t\tilde{C}_t$ 时，也分别有他们专属的权重和偏置。
- 更新旧的cell state $C_{t-1}$ 。
- 最后一步是输出门。输出门决定要输出哪些信息，他也有自己专属的权重和偏置。最终也是经过一个激活函数 $t anh ()$ ，得到当前的隐藏状态。
双向RNN（双向LSTM）：对当前信息的预测可能不仅依赖于以往信息，也可能以来以后的信息。

CNN

首先也是先得到输入 $x$ 的词向量矩阵，然后用滑动的卷积核Filter与词向量进行卷积（每个元素相乘最终全部加起来）就得到特征 $f$ 。得到特征后，进行池化。池化对特征进一步的提取，一般选取局部信息（与选取的n-gram有关）的最大值或平均值作为特征，最后将特征转为针对特定任务需要的格式。
在这里插入图片描述
卷积层中，滑动卷积核的大小代表每次能计算的原始数据的大小，计算完一次往下滑动一个维度。