反向传播算法深入解析
1. 反向传播算法基础
在神经网络中,反向传播算法是一种用于计算梯度的有效方法,在训练神经网络时起着关键作用。通常,使用预激活变量进行反向传播比使用后激活变量更为常见。下面是使用预激活变量的反向传播算法的伪代码:
初始化:对于每个输出节点 $t_r$($r \in \{1, \ldots, k\}$),设置 $\Delta(t_r) = \frac{\partial L}{\partial y(t_r)} = \Phi'(a(t_r))\frac{\partial L}{\partial h(t_r)}$;
重复:
选择一个未处理的节点 $i$,使得其所有输出节点 $j \in A(i)$ 的 $\Delta(j)$ 值都已知;
更新 $\Delta(i) \Leftarrow \Phi'_i \sum_{j \in A(i)} w_{ij} \Delta(j)$;
直到所有节点都被选择;
对于每条边 $(j, i)$ 及其权重 $w_{ji}$,计算 $\frac{\partial L}{\partial w_{ji}} = \Delta(i) h(j)$;
反向传播算法具有广泛的适用性,它不仅可以用于常见的前馈神经网络,还可以用于任何无环的参数化计算图。例如,有一种神经网络允许随机特征包直接输入到隐藏层,即使在这种非常规架构下,上述反向传播伪代码依然有效,只要计算图是有向无环图即可。此外,只要计算节点中的函数可微,就可以在其中使用任何类型的函数。
2. 激活函数的导数
在反向传播算法的更新过程中,需要用到各种激
超级会员免费看
订阅专栏 解锁全文
1072

被折叠的 条评论
为什么被折叠?



