神经网络中的算法与正则化技术
1. 向量与海森矩阵计算
在神经网络的计算中,通过对特定操作应用 $R{\cdot}$ 运算符,能得到向量 $v^TH$ 元素的表达式。具体如下:
- $R\left{\frac{\partial E}{\partial w_{kj}}\right} = R{\delta_k}z_j + \delta_kR{z_j}$(式 5.110)
- $R\left{\frac{\partial E}{\partial w_{ji}}\right} = x_iR{\delta_j}$(式 5.111)
实现该算法时,需要引入额外变量,如隐藏单元的 $R{a_j}$、$R{z_j}$ 和 $R{\delta_j}$,以及输出单元的 $R{\delta_k}$ 和 $R{y_k}$。对于每个输入模式,可利用上述结果求得这些量的值,进而通过式 5.110 和 5.111 得到 $v^TH$ 的元素。
该技术的一个优点是,评估 $v^TH$ 的方程与标准的前向和反向传播方程非常相似,因此扩展现有软件来计算此乘积通常很直接。
若有需要,可通过依次选择一系列形如 $(0, 0, \ldots, 1, \ldots, 0)$ 的单位向量作为向量 $v$,该技术可用于评估完整的海森矩阵。每个这样的单位向量会挑出海森矩阵的一列,这在理论上等效于某种反向传播过程,但由于存在冗余计算,效率会有所损失。
下面是一个简单的流程说明:
1. 初始化额外变量 $R{a_j}$、$R{z_j}$、$R{\delta_j}$、$R{\delta_k}$ 和 $R{y_k}$。
2. 对于每个输入模式:
-
超级会员免费看
订阅专栏 解锁全文
3037

被折叠的 条评论
为什么被折叠?



