20、长短期记忆网络（LSTM）：原理、优化与变体

最新推荐文章于 2025-10-14 22:59:33 发布

wine

最新推荐文章于 2025-10-14 22:59:33 发布

阅读量50

点赞数

CC 4.0 BY-SA版权

分类专栏： TensorFlow与NLP：深度学习驱动的语言革命文章标签： LSTM 长短期记忆网络梯度消失

本文链接：https://blog.youkuaiyun.com/wine/article/details/149520724

TensorFlow与NLP：深度学习驱动的语言革命专栏收录该内容

36 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

长短期记忆网络（LSTM）：原理、优化与变体

1. LSTM基础与梯度问题

在LSTM的计算中，我们通常不关注 $\sigma$ 或 $\tanh$ 函数内的具体内容，因为无论其取值如何，结果都会被限制在 $(0,1)$ 或 $(-1,1)$ 范围内。通过简化符号，用通用符号 $\gamma$ 替代 $\sigma$、$1 - \sigma$、$\tanh$ 和 $1 - \tanh^2$ 等项，我们可以得到如下形式：
[
\left[ w_{oh}\gamma(.) + w_{fh}\gamma(.) + w_{ch}\gamma(.) + w_{ih}\gamma(.) \right]
]
或者简化为：
[
w_{oh}\gamma(.) + w_{fh}\gamma(.) + w_{ch}\gamma(.) + w_{ih}\gamma(.)
]
由此可得：
[
\frac{\partial h_t}{\partial h_{t - k}} \approx \prod_{i = 0}^{k - 1} \left[ w_{oh}\gamma(.) + w_{fh}\gamma(.) + w_{ch}\gamma(.) + w_{ih}\gamma(.) \right]
]
这意味着，虽然 $\frac{\partial c_t}{\partial c_{t - k}}$ 不受 $W_{h_k}$ 项的影响，但 $\frac{\partial h_t}{\partial h_{t - k}}$ 会受到影响。因此，在初始化LSTM的权重时我们必须谨慎，同时也应该使用梯度裁剪。

不过