神经网络学习规则与应用详解
1. 监督学习规则
1.1 缩放共轭梯度法
共轭梯度优化平衡了梯度下降(GD)的简单性和牛顿法的快速二次收敛性。许多共轭梯度学习算法基于假设:在解的区域内,所有权重的误差函数可以用 $E_T(D_T, w) = \frac{1}{2}w^T Hw - \theta^T w$ 精确近似,其中 $H$ 是海森矩阵。但由于海森矩阵维度大,直接计算误差表面上的共轭方向在计算上不可行。因此,可行的共轭梯度算法在不明确计算海森矩阵的情况下计算共轭梯度方向,并沿这些方向更新权重。
1.1.1 标准共轭梯度算法
标准共轭梯度算法如算法 3.2 所示:
Initialize the weight vector, w(0);
Define the initial direction vector as
p(0) = −E′(w(0)) = θ − Hw(0)
for t = 1, ..., nw do
Calculate the step size,
η(t) = −E′(w(t))^T p(t) / (p(t)^T H p(t))
Calculate a new weight vector,
w(t + 1) = w(t) + η(t) p(t)
Calculate scale factors,
β(t) = E′(w(t + 1))^T E′(w(t + 1)) / (E′(w(t))^T E′(w(t)))
Calculate a new direction vector,
p(t + 1
超级会员免费看
订阅专栏 解锁全文
9万+

被折叠的 条评论
为什么被折叠?



