标准RNN的推导

最新推荐文章于 2025-07-25 16:52:59 发布

原创最新推荐文章于 2025-07-25 16:52:59 发布 · 3.7k 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

RNN 专栏收录该内容

7 篇文章

订阅专栏

1.RNN前向计算：对于如下结构，x是输入，s为隐层，o为输出，U,W,V为不同层的权值，同一类型的权连接权值相同

则ot可表示为

其中，g,f为输出层，隐层的激活函数，f一般选择tanh函数，若RNN用于分类的话，g选择softmax函数

2.RNN反向传播：BPTT算法，本质还是BP算法，因为RNN处理序列数据，所以在原有基础上增加了序列维度反向传播。BPTT的中心思想与BP算法相同，沿着需要优化的参数的负梯度方向不断寻找更优的点直至收敛。其中RNN损失为各个时间点的损失之和，故各个梯度的变化为各个时间点梯度变化之和

从上图可以看出，反向传播每计算一个隐层，都会与一个激活函数的导数相乘，而激活函数的累乘会导致梯度消失或梯度爆炸的现象发生

3.常用的几个激活函数

（1）sigmoid函数

从图中可以看出，函数的导数取值范围为(0,0.025]，反向传播时每多一个一层，梯度变化都会至少缩小四倍，传到神经网络前部很容易造成梯度消失。同时，sigmoid函数的输出不是中心对称，均大于0，称为偏移现象，这就导致后一层的神经元将上一层输出的非0均值的信号也学习到作为此层的输入，易学习到噪声。

（2）tanh函数

从图中可以看出，tanh函数的输出关于零点中心对称，网络收敛性更好，同时，tanh函数的导数范围为(0,1]，反向传播每经过一层，梯度变化较sigmoid函数慢，也就是梯度消失的速度更慢

（3）Relu函数

relu函数的导数左侧为0，右侧为1，在一定程度上避免了梯度消失的问题，但是与激活函数相乘的另一个因子在反向传播中呈现增长的趋势，则恒为1的导数容易引起梯度爆炸，而恒为0的导数有可能把神经元学死，设置合适的步长可有效避免这个问题的发生

解决梯度消失或梯度爆炸的方法主要有：

1. 选择更适合的激活函数

2.改变传播结构

博客等级

码龄7年

9
原创

14
点赞

107
收藏

10
粉丝

关注

私信

热门文章

分类专栏

上一篇：: RNN标准模型及其变种

下一篇：: LSTM与GRU

最新评论

numpy.cov协方差矩阵计算/官方文档解读
Chasing Aurora: 默默任是行哦
word2vec中的subsampling和negative sampling
优快云-Ada助手: 非常感谢您分享关于word2vec中的subsampling和negative sampling的博客，这些技术在自然语言处理中非常重要。我觉得您可以继续写关于word2vec技术的博客，例如“如何使用gensim库实现word2vec模型”或者“word2vec模型在聊天机器人中的应用”。这样的技术文章对其他用户学习和应用自然语言处理技术非常有帮助。相信您的下一篇博客会有更多读者欣赏和学习。为了方便博主创作，提高生产力，优快云上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.youkuaiyun.com/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.youkuaiyun.com/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
numpy.cov协方差矩阵计算/官方文档解读
电航427: 请问下，np.cov默认是一列一个样本，计算中的np.cov数组是2*3的矩阵，那应该是3个样本，得到的协方差矩阵应该是3*3 为什么结果是2*2的矩阵
标准RNN的推导
XMiOSTool: 大神，教教
LSTM与GRU
weixin_40981614: 老哥，GRU下一个ht的计算公式写错啦

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。