长短期记忆网络(LSTM):原理、优化与变体
1. LSTM基础与梯度问题
在LSTM的计算中,我们通常不关注 $\sigma$ 或 $\tanh$ 函数内的具体内容,因为无论其取值如何,结果都会被限制在 $(0,1)$ 或 $(-1,1)$ 范围内。通过简化符号,用通用符号 $\gamma$ 替代 $\sigma$、$1 - \sigma$、$\tanh$ 和 $1 - \tanh^2$ 等项,我们可以得到如下形式:
[
\left[ w_{oh}\gamma(.) + w_{fh}\gamma(.) + w_{ch}\gamma(.) + w_{ih}\gamma(.) \right]
]
或者简化为:
[
w_{oh}\gamma(.) + w_{fh}\gamma(.) + w_{ch}\gamma(.) + w_{ih}\gamma(.)
]
由此可得:
[
\frac{\partial h_t}{\partial h_{t - k}} \approx \prod_{i = 0}^{k - 1} \left[ w_{oh}\gamma(.) + w_{fh}\gamma(.) + w_{ch}\gamma(.) + w_{ih}\gamma(.) \right]
]
这意味着,虽然 $\frac{\partial c_t}{\partial c_{t - k}}$ 不受 $W_{h_k}$ 项的影响,但 $\frac{\partial h_t}{\partial h_{t - k}}$ 会受到影响。因此,在初始化LSTM的权重时我们必须谨慎,同时也应该使用梯度裁剪。
不过
超级会员免费看
订阅专栏 解锁全文
3035

被折叠的 条评论
为什么被折叠?



