RNN与LSTM系列(二)——LSTM的参数个数

本文深入剖析了长短期记忆(LSTM)神经网络的工作原理,包括忘记门、细胞状态及输出门层的详细机制,同时提供了如何计算LSTM神经元数量的公式,适合初学者理解和掌握。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

转载:https://www.cnblogs.com/wushaogui/p/9176617.html

目录:

  • 1. LSTM简单介绍
  • 2.简单假设样例
  • 3.神经元分析
    • 3.1忘记门层
    • 3.2细胞状态
    • 3.3输出层
    • 3.4总结
  • 4.测试

1.LSTM简单介绍

LSTM卿¶é´ä¸å±å¼

 

                                                      LSTM在时间上展开

红框从左到右,依次是:
忘记门层: 决定从细胞状态中丢弃什么信息,通过当前时刻输入和前一个时刻输出决定
细胞状态: 确定并更新新信息到当前时刻的细胞状态中
输出门层: 基于目前的细胞状态决定该时刻的输出

2.简单假设样例

假设现有一个样本,Shape=(13,5),时间步是13,每个时间步的特征长度是5.形象点,我把一个样本画了出来:

                                                    

                                                               一个样本

使用Keras框架添加LSTM层时,我的设置是这样的keras.layers.LSTM(10),也就是我现在设定,每个时间步经过LSTM后,得到的中间隐向量是10维(意思是5->10维),13个时间步的数据进去得到的是(13*10)的数据.

每个时间步对应神经元个数(参数个数)一样.也就是算一个LSTM中神经元个数,算一个时间步中参与的神经元个数即可.下面将对LSTM每个计算部分进行神经元分析.

3.神经元分析

3.1忘记门层

å¿è®°é¨å±

                                                                   忘记门层

图中公式的是上一个状态的隐向量(已设定隐向量长度为10),为当前状态的输入(长度为5),那么的长度就是10+5=15了.为该层的参数.

该层输出是中间隐向量的长度(10),经过激活前后的长度不变.只需要考虑里面的操作得到10维特征即可.

是(1,15)的向量,与相乘得到(1,10)的向量,根据矩阵相乘规律,得到是(15,10)的矩阵,得到(1,10)矩阵后,与该门层偏置相加,偏置也应该有相同的形状,即是(1,10)的矩阵.

即:该层神经元为:

        

3.2细胞状态

(1)确定更新信息过程

ç¡®å®è¯¥æ¶å»ç»èè¦æ´æ°çå容

                                                       确定该时刻细胞要更新的内容

可以看到,这里公式和前面的一样的,都是激活函数,不影响参数个数.

同理这过程的神经元个数是:

             

(2)更新过程

ç»èç¶ææ´æ°

                                                                    细胞状态更新

公式中的四个值,均是前面计算得到的结果,因此该过程没有参数需要学习.

3.3输出层

è¾åºé¨å±

                                                                        输出门层

一样的公式,神经元个数一样.即个数为:

              

3.4总结

把公式(1),(2),(3)的神经元加起来,就是该LSTM的神经元个数了.

                          

其实,我们可以把这个问题一般化,不看这个例子,假设你一个时间步的特征长度是n,经过该LSTM得到的长度是m,这样就可以算出该LSTM层的神经元个数为:

                                                    Neurons_{all}=4\times \left ( \left ( n+m \right )\times m+m \right )

 

4.测试

  1. from keras.layers import LSTM 
  2. from keras.models import Sequential 
  3.  
  4. time_step=13 
  5. featrue=5 
  6. hidenfeatrue=10 
  7.  
  8. model=Sequential() 
  9. model.add( LSTM(hidenfeatrue,input_shape=(time_step,featrue))) 
  10. model.summary() 

输出是:

  1. _________________________________________________________________________________ 
  2. Layer (type) Output Shape Param #  
  3. ================================================================================= 
  4. lstm_8 (LSTM) (None, 10) 640  
  5. ================================================================================= 
  6. Total params: 640 
  7. Trainable params: 640 
  8. Non-trainable params: 0 
  9. _________________________________________________________________________________ 
  10.  

参考:
理解 LSTM 网络
推荐给初学LSTM或者懂个大概却不完全懂的人

 

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值