RNN-LSTM

最新推荐文章于 2024-06-19 14:29:36 发布

非零因子

最新推荐文章于 2024-06-19 14:29:36 发布

阅读量350

点赞数

分类专栏：自然语言处理文章标签： rnn lstm 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_46489969/article/details/125572721

版权

自然语言处理专栏收录该内容

6 篇文章

订阅专栏

one to one：图像分类 image classification

one to many：看图说话 image captioning

many to one：情感分析 sentiment classification/音乐分类

many to many：机器翻译 senquence to sequence

many to many：语言模型/NER tagging

RNN

结构：只有输入x和隐藏状态h

递归，RNN是一个链式结构，每个时间片使用的是相同的参数。

以序列（sequence）为输入，在序列的演进方向递归

在时间维度上是深度学习模型，如一句话有100个词，那么RNN深度为100，可以处理不同尺寸的语句

优点

能处理任意长度的输入
模型大小不随输入长度影响
计算过往的历史数据
权重共享

缺点

计算速度慢
对短期信息敏感，缺乏长期依赖

在深度学习领域中（尤其是RNN），“长期依赖“问题是普遍存在的。长期依赖产生的原因是当神经网络的节点经过许多阶段的计算后，之前比较长的时间片的特征已经被覆盖

梯度消失和梯度爆炸是困扰RNN模型训练的关键原因之一，产生梯度消失和梯度爆炸是由于RNN的权值矩阵循环相乘导致的，相同函数的多次组合会导致极端的非线性行为。

梯度爆炸/梯度消失

BPTT（back propagation through time）

问题

范数小于1会梯度消失

范数大于1会梯度爆炸

如何解决？

梯度爆炸

Gradient Clipping for Gradient Exploding

如果梯度大于某个阈值，手动减小（设定临界值）

梯度消失，不好解决

LSTM

Long short Term memory 长短期记忆——处理与时序数据相关的任务

结构：记忆信息c+隐藏状态h

1、cell state 单元状态

传送带上的信息由遗忘门和输入门控制

2、Forget Gate 遗忘门 f(t)

判断传送带上的信息是否需要遗忘

3、Input Gate 输入门 i(t)

考虑前后信息选择遗忘与不考虑前后关系的点乘

4、Output Gate 输出门 o(t)

一个输出，分两个方向（一个作为下一个单元的输入，一个作为LSTM的输出值）

目的：选择性的保留、抽取信息

优势：

防止梯度消失爆炸，但也不能百分之百保证

相比RNN可以捕获更长时序的数据

LSTM衍生：

Stacked LSTM：多个LSTM进行堆叠
CNN LSTM：CNN 图片处理、LSTM 文字生成
Encoder-Decoder LSTM：seq2seq模型中Encoder-LSTM、Decoder-LSTM
Bidirectional LSTM：双向LSTM，解决长期依赖的问题

Bidirectional LSTM

双向：不仅可以依据上文信息，还依据下文信息

一般比单向LSTM准确度高，可以用于语音模型

RNN/LSTM/Bi-LSTM

RNN有梯度消失现象：不能捕捉到很久以前的信息
LSTM只能捕捉到过去的信息

Bi-LSTM可以捕捉过去以及未来的

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

非零因子 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。