循环神经网络模型系列总结

本文详细介绍了循环神经网络(RNN)、LSTM、GRU和ELMO等序列模型,探讨了它们的结构和工作原理,如RNN的多层和双向结构,LSTM的门控机制,GRU的重置门和更新门,以及seq2seq模型和注意力机制在处理序列任务中的应用。此外,还讨论了解决不定长序列生成和模型优化的技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、RNN

1.1 模型结构:

1.2 多层RNN

通过num_layers设置循环神经网络隐含层的层数,例如2。

对于一个多层循环神经网络,当前时刻隐含层的输入来自同一时刻输入层(如果有)或上一层隐含层的输出。每一层的隐含状态只沿着同一层传递。把单层循环神经网络中隐含层的每个单元当做一个函数f,这个函数在t时刻的输入是Xt, Ht-1,输出是Ht:

Ht = f(Xt, Ht-1)

加入输入为第0层,输出为第L+1层,在一共L个隐含层的循环神经网络中,上式可以拓展成以下的函数:

如下图所示:

1.3 双向RNN

 

 

二、LSTM

遗忘门:   

更新门:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值