深度学习(Deep Learning)读书思考七:循环神经网络二(LSTM)

本文深入探讨LSTM模型,从常量错误传播问题出发,阐述LSTM如何通过输入门、遗忘门和输出门以及Peephole Connection解决长期依赖问题。详细介绍了LSTM的网络结构、数学表达及优缺点,揭示其在序列任务中的强大能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概述

通过前一节对循环神经网络RNN的了解,简单的RNN虽然能够解决长期依赖问题,但是训练和优化比较困难,然后长短时记忆模型LSTM很大程度上解决长期依赖问题,本文主要介绍

1.LSTM的提出
2.LSTM网络结构
3.LSTM的分析

LSTM的提出

早在94年Hochreiter发现了RNN训练过程中的梯度消失和爆炸问题,然后在99年提出LSTM解决该问题。

梯度消失问题的原因可以参考之前的介绍。

常量错误传播

RNN难训练的主要原因在后向传播过程中,梯度随着时间序列的增加而逐渐消失。如果误差能够不消减的进行传递,则可以避免训练难得问题。

常量错误传播-直观想法

假设隐藏层只有一个节点j,则该节点误差计算过程为

δj(t)=fj(netj(t))δj(t+1)wjj
其中 netj(t),δj(t)j .
如果想做到常误差传播,则需要
fj(netj(t))wjj=1

此时可以近似无限长时间序列,但是网络过于简单并且实现比较复杂。

LSTM也是根据CEC演化而来。

针对上面的必要条件fj(netj(t))wjj=1,两边同时积分可以得到

fj(netj(t))=netj(t)wjj
对于任意时序网络输入 netj(t) 都要满足。
此时激活函数必须是线性并且激活值保持为常量。
yj(t+1)=fj(netj(t+1))=fj(wjjy
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值