lstm不收敛_LSTM学习笔记

这篇博客介绍了LSTM神经网络,旨在解决标准RNN在处理序列数据时的短时记忆和训练收敛问题。LSTM通过其遗忘门、输入门和输出门机制来选择性地保留和丢弃信息,从而能够记忆更长序列并优化训练过程。LSTM应用广泛,包括one to many、many to one和many to many等场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

60890aa2bae4cc8da7b635b47e2ed6b4.png

最近实验中需要用到LSTM,记录下我对LSTM的理解。

什么是LSTM?

首先介绍一下标准的RNN,它拥有记忆能力,适合处理序列型的数据,比如语音识别,但它有有以下缺点:

  • 只能记住非常短的序列
  • 难以训练,收敛困难

dcbd2d42008481e884e338fcd63ba336.png
RNN的结构

LSTM全名“长短期记忆神经网络”,正好解决了RNN的缺点。LSTM会选择性忘记不重要的信息,因此它能记住更长的序列,且它更容易训练

af720c9e0b5f7031ba727263b338004d.png
LSTM的结构

LSTM的关键是单元(门)的状态,即贯穿图顶部的水平线。门由sigmoid层、tanh层和乘法运算组成

LSTM原理

LSTM的第一步决定要从单元状态丢弃什么信息,这个决定由“遗忘门”做出,输出值介于0和1,0表示完全忘记,1表示完全记住

0f0bb90a5125497abd18e5444cabcb66.png
遗忘门

第二步决定要在单元状态中存储什么新信息。它有两部分:首先,“输入门”的sigmoid决定更新哪些值,接下来,tanh创建新的候选向量,在下一个步骤中,把两者结合起来对状态更新

1ae77dda009144189e25291dfc962cf8.png
输入门

这一步对状态进行更新

472a3665bd47e02470d9fe5fd333cd48.png

最后需要计算输出什么

8ce608f9ca0bcc00b99ee2abbcf5a74b.png

LSTM的应用

  • one to many:输入不是序列,输出是序列,比如看图写诗
  • many to one:输入是序列,输出不是序列,比如视频分类、步态识别
  • many to many:输入是序列,输出也是序列,比如语音识别、机器翻译

references

Understanding LSTM Networks​colah.github.io 「公开课干货分享」LSTM长短期记忆神经网络的学习与实现​www.bilibili.com
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值