循环神经网络(RNN)梯度推导详解
1. 因果机器学习基础
在机器学习策略中,因果假设并非经常被引入,但它能增强机器学习解决方案的泛化能力。拓展因果机器学习概念的一个关键工具是反事实探究,即设想特定过程 a 导致结果 b 的情况,也就是针对与观察结果相关的假设性回溯干预进行反事实解释。
为实现更广泛的应用,除了采用因果分解公式,还可假设图中每个节点信号的生成方式为:
[x_i = f_i(pa(x_i),u_i)]
其中,随机信号 (u_i) 表示对 (x_i) 的解释性贡献,(f_i(\cdot)) 为确定性函数。通常情况下,噪声项 (u_1,u_2,\cdots,u_i,\cdots) 被假定为联合独立。通过人类行为或学习方法,这些工具可用于分析反事实、干预和观察。结构因果模型(SCM)不仅能像因果有向图模型(DGM)一样灵活计算基于干预的分布,还能通过固定噪声信号的值来实现反事实分析。
2. 标准 RNN 的梯度推导
基于梯度的学习算法的进一步发展需要计算所选成本函数关于网络参数的多个偏导数,这些表达式均运用了链式法则。
-
关于 (W_o) 和 (b_o) 的梯度 :
[
\begin{align }
\frac{\partial\overline{J}(\hat{y},y)}{\partial W_o}&=\sum_{k = 1}^{K}\left(\frac{\partial J^{(k)}}{\partial\hat{y}^{(k)}}\right)^T\frac{\partial\hat{y}^{(
RNN与LSTM梯度推导详解
超级会员免费看
订阅专栏 解锁全文
1422

被折叠的 条评论
为什么被折叠?



