- 博客(5)
- 收藏
- 关注
原创 LSTM思想解析—论文精读(Learning to Forget: Continual Prediction with LSTM)
遗忘门的提出是为了解决:输入数据是连续的数据流,造成激活函数h(x)饱和,从而出现梯度消失或记忆细胞退化为普通BPTT的问题。遗忘门的作用就是让记忆单元可以在适当的时间将状态进行重置,从而丢弃那些内容过时且无用的信息。图2上图为添加遗忘门后的LSTM结构。在图中,表示遗忘门。与其他门的计算方式一样,遗忘门的计算公式为:(10)激活函数为sigmoid函数,因此的取值范围为0~1。根据上图红框中的公式,公式(6)变为了:(11)
2025-03-25 11:51:30
1063
原创 LSTM思想解析—论文精读(Long Short-Term Memery)
最近在学习LSTM(Long Short-term Memory ),网上的文章基本上都是基于下图对LSTM进行介绍。然而,有几个问题一直困扰着我:LSTM与相比,它能够有效处理长依赖问题(long time lags),原因是什么呢?LSTM的网络架构为什么要设计成这样呢?引入门控机制的原因是啥呢?为了解答上述疑惑,我翻阅网上的文章、咨询DeepSeek和豆包,均没有找到我想要的答案。因此,我决定阅读原论文,通过论文去了解作者的思想。
2025-03-14 21:10:10
964
原创 RNN循环神经网络之RNN十问
回忆一下RNN的基本结构。例如,在进行文本处理时,序列数据中包含了N条句子(这个N条句子之间相互独立,无先后顺序),一个 batch 可能包含了其中的若干条句子,样本间是可以并行计算的。随着序列长度的增加,较早时间步的信息在经过多次线性变换和非线性激活后,会逐渐被稀释,难以完整地保留和传递到后续时间步,导致模型对长序列中的早期信息记忆能力下降。如果不是按照batch输入,而是一个字一个字依次输入模型,计算梯度时采用的是随机梯度下降法,那么梯度的估计可能会非常不稳定,因为单个样本的特征可能具有较大的随机性。
2025-02-06 22:27:03
1242
原创 RNN循环神经网络之代码实现
RNN循环神经网络原理介绍详见。本篇主要通过Pytorch实现RNN,包括手动编写代码实现及基于Pytorch自带的RNN去实现。
2025-02-05 23:23:23
1318
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人