64、神经网络训练:从误差函数到梯度优化

神经网络训练:从误差函数到梯度优化

1. 误差函数的二次近似

在最小值 $w^\star$ 的邻域内,误差函数可以用二次函数来近似。此时,恒定误差的等高线是椭圆,这些椭圆的轴与海森矩阵(Hessian matrix)的特征向量 $u_i$ 对齐,其长度与相应特征值 $\lambda_i$ 的平方根成反比。

由于特征向量 ${u_i}$ 构成一个完整的集合,任意向量 $v$ 可以写成如下形式:
[v = \sum_{i} c_i u_i]
从相关公式可得:
[v^T H v = \sum_{i} c_i^2 \lambda_i]
海森矩阵 $H$ 为正定矩阵的充要条件是其所有特征值均为正。

对于一维权重空间,一个驻点 $w^\star$ 为最小值的条件是:
[\left.\frac{\partial^2 E}{\partial w^2}\right|_{w^\star} > 0]
在 $D$ 维空间中,对应的结果是在 $w^\star$ 处计算的海森矩阵应为正定矩阵。

2. 梯度信息的使用

通过反向传播过程,可以高效地计算误差函数的梯度。使用梯度信息能够显著提高定位误差函数最小值的速度,原因如下:

在误差函数的二次近似中,误差曲面由 $b$ 和 $H$ 确定,它们总共包含 $W(W + 3)/2$ 个独立元素(因为矩阵 $H$ 是对称的),其中 $W$ 是权重向量 $w$ 的维度,即网络中自适应参数的总数。

二次近似的最小值位置取决于 $O(W^2)$ 个参数,因此在收集到 $O(W^2)$ 个独立信息之前,我们无法确定最小值的位置。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值