RNN

最新推荐文章于 2024-12-17 21:33:09 发布

Doooer

最新推荐文章于 2024-12-17 21:33:09 发布

阅读量314

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/YQMind/article/details/81226127

深度学习专栏收录该内容

21 篇文章

订阅专栏

首先通过一个例子说一下语言模型：
这里写图片描述

RNN优点：

可以处理任意长度的输入
weights在所有时刻都是共享的
可以利用前面时刻的信息

RNN缺点：

耗时，无法并行
实际中，很难利用前面很远时刻的信息

这里写图片描述

RNN公式：
$h_t = tanh (W_hh_{t-1} + W_ee_t + b_1)$
$o_t = softmax(Uh_t+b_2)$
其中， $W_h, W_e, b_1, U, b_2$ 只有一套。

RNN可能会遭遇梯度消失或梯度爆炸问题：
$\frac{\partial E}{\partial W} = \sum_{1 ... T} \frac {\partial E_t}{\partial W}$
其中
$\frac {\partial E_t}{\partial W} = \sum_{1 ... t } \frac {\partial E_t}{\partial o_t} \frac {\partial o_t}{\partial h_t}\frac {\partial h_t}{\partial h_k} \frac {\partial h_k}{\partial W}$
其中
$\frac {\partial h_t}{\partial h_k}$ 可以很大或很小。注意到 $\frac {\partial h_j}{\partial h_{j-1}}$ 是向量对向量求导，结果是一个Jacobian矩阵，矩阵元素是每个点的导数。
这里写图片描述

RNN很难训练，主要是因为存在梯度消失和梯度爆炸的问题。

对于梯度爆炸，使用Gradient clipping（梯度截断）。
这里写图片描述

对于梯度消失，可以选择好的初始化，使用Relu激活函数。但是主要的方法还是使用GRU和LSTM。

[1] https://blog.youkuaiyun.com/apsvvfb/article/details/52848554
[2] https://www.toutiao.com/i6491156699737489933/?group_id=6491156699737489933&group_flags=0
[3] https://blog.youkuaiyun.com/zhangxb35/article/details/70060295

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。