自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 LSTM思想解析—论文精读(Learning to Forget: Continual Prediction with LSTM)

遗忘门的提出是为了解决:输入数据是连续的数据流,造成激活函数h(x)饱和,从而出现梯度消失或记忆细胞退化为普通BPTT的问题。遗忘门的作用就是让记忆单元可以在适当的时间将状态进行重置,从而丢弃那些内容过时且无用的信息。图2上图为添加遗忘门后的LSTM结构。在图中,表示遗忘门。与其他门的计算方式一样,遗忘门的计算公式为:(10)激活函数为sigmoid函数,因此的取值范围为0~1。根据上图红框中的公式,公式(6)变为了:(11)

2025-03-25 11:51:30 1063

原创 LSTM思想解析—论文精读(Long Short-Term Memery)

最近在学习LSTM(Long Short-term Memory ),网上的文章基本上都是基于下图对LSTM进行介绍。然而,有几个问题一直困扰着我:LSTM与相比,它能够有效处理长依赖问题(long time lags),原因是什么呢?LSTM的网络架构为什么要设计成这样呢?引入门控机制的原因是啥呢?为了解答上述疑惑,我翻阅网上的文章、咨询DeepSeek和豆包,均没有找到我想要的答案。因此,我决定阅读原论文,通过论文去了解作者的思想。

2025-03-14 21:10:10 964

原创 RNN循环神经网络之RNN十问

回忆一下RNN的基本结构。例如,在进行文本处理时,序列数据中包含了N条句子(这个N条句子之间相互独立,无先后顺序),一个 batch 可能包含了其中的若干条句子,样本间是可以并行计算的。随着序列长度的增加,较早时间步的信息在经过多次线性变换和非线性激活后,会逐渐被稀释,难以完整地保留和传递到后续时间步,导致模型对长序列中的早期信息记忆能力下降。如果不是按照batch输入,而是一个字一个字依次输入模型,计算梯度时采用的是随机梯度下降法,那么梯度的估计可能会非常不稳定,因为单个样本的特征可能具有较大的随机性。

2025-02-06 22:27:03 1242

原创 RNN循环神经网络之代码实现

RNN循环神经网络原理介绍详见。本篇主要通过Pytorch实现RNN,包括手动编写代码实现及基于Pytorch自带的RNN去实现。

2025-02-05 23:23:23 1318

原创 RNN循环神经网络之原理详解

详细讲解RNN的原理,包括RNN的网络结构、RNN前向传播、反向传播等。

2025-01-26 21:30:45 926

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除