【深度学习】包教包会LSTM

本文详细介绍了LSTM(长短期记忆网络)的模块结构,包括核心变量、门控机制和记忆更新。从输入到输出,阐述了LSTM如何处理信息并保留长期依赖。此外,还探讨了无输入LSTM、fast LSTM、双向LSTM和注意力LSTM等变体。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文本着由浅入深原则介绍LSTM模块结构,使用流程图 梳理公式,保证看完过目不忘,神清气爽。

模块结构

核心变量

从宏观上来看,LSTM模块有输入 x t x_t xt,输出 y t y_t yt,内部维护一个记忆变量 c t c_t ct
这里写图片描述
一般用这三个核心变量来描述一个LSTM,记为 L S T M ( x , y , c ) \mathrm{LSTM}(x,y,c) LSTM(x,y,c)。有时,输出 y y y也被称为隐状态 h h h

入口与门

除了主入口之外,输入 x t x_t xt(红色)还从另外三个“门”进入LSTM模块:input,forget,output。
一起进入模块的,还有输出 y y y(蓝色)和记忆 c c c(绿色)。
前一时刻变量用虚线表示。
这里写图片描述

输入端口和门的结果记为 z , i , f , o z,i,f,o z,i,f,o
这里写图片描述

具体表达式如下

意义 表达式
数据输入 z = g ( [ x t , y t − 1 ] ) z=g([x_t,y_{t-1}]) z=g([xt,yt1])
输入门 i = σ ( [ x t , y t − 1 , c t − 1 ] ) i=\sigma([x_t,y_{t-1},c_{t-1}]) i=σ([xt,yt1,ct1])
遗忘门 g = σ ( [ x t , y t − 1 , c t − 1 ] ) g=\sigma([x_t,y_{t-1},c_{t-1}]) g=σ([xt,yt1,ct1])
输出门 o = σ ( [ x t
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值