吴恩达深度学习（四）之序列模型

最新推荐文章于 2025-04-07 21:11:31 发布

pku第一菜

最新推荐文章于 2025-04-07 21:11:31 发布

阅读量1.8k

点赞数 2

文章标签：自然语言处理 tensorflow 深度学习神经网络机器学习

本文链接：https://blog.youkuaiyun.com/qq_40423617/article/details/108902732

版权

本文详细介绍了吴恩达深度学习课程中关于序列模型的内容，包括循环神经网络（RNN）、LSTM、GRU及其解决梯度消失问题的方法。此外，还涉及词嵌入、词向量表示、词嵌入学习、Word2Vec、GloVe等自然语言处理技术，并探讨了序列模型在机器翻译和注意力机制的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一周循环序列模型

基于词典的NLP中X和Y的字典表示：

在这里插入图片描述

循环神经网络

如果利用神经网络，
1.TX未必等于TY（中英翻译）
2.不能共享前面的数据

单向RNN

参数表示

图中左边跟右边的表示方式是相同的
我们会发现RNN可以运用以前判断过的单词(因共享权值所以好于神经网络)，但是无法利用后面的单词（这个问题后续用BRNN解决），因此只到Teddy也无法判断到底是不是个名字
在这里插入图片描述

前向传播

在这里插入图片描述
注意这是两个矩阵的乘积，后期简化为只有W_a与W_y
注意：一个序列下的所有不同输入的单词，它们的矩阵W_a与W_y相同

通过时间的反向传播

#关于最后交叉熵代价函数那一块的梯度没给出，恐龙的代码中有，这里给出softmax与交叉熵代价下的梯度，
传送,
直接就求到了去掉softmax那里
在这里插入图片描述

五种RNN结构

1.一对一：标准神经元
2.一对多：例如音乐或者序列生成
3.多对一：例如通过一句话，感知用户对电影的喜爱程度
4.多对多：
a.TX=TY，例如命名实体识别
b.TX!=TY,例如机器翻译，前面输入部分是编码（encoder）,后面输出是解码（decoder）
在这里插入图片描述

模型构建(以文本判断为例)

如下图：我们现在要看哪一个句子是真正的句子，就是依次将句子带入RNNmodel看它们的概率
在这里插入图片描述
首先我们要设计一个词典，然后将每个单词用热独编码表示并输入，对于不常用单词放入单独的一个词典，在每个句子后面跟一个EOS来表示结束

然后如下所示的将句子带入模型
注意：a(1) and X ^<1> 是0， X^<2>输入的是y(1)即第一个正确单词，yhat(1)代表是每一个单词的概率，因为输入了x(2),因此yhat(2)=p(average|cat)，如此类推
注意：每个yhat都经过了softmax，底下也是softmax代价函数
最后的输出就是这个句子的概率
在这里插入图片描述