64、神经网络训练：从误差函数到梯度优化

android

于 2025-10-05 10:17:29 发布

阅读量10

点赞数

CC 4.0 BY-SA版权

分类专栏：模式识别与机器学习精解文章标签：神经网络误差函数梯度下降

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/android/article/details/154638154

模式识别与机器学习精解专栏收录该内容

100 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

神经网络训练：从误差函数到梯度优化

1. 误差函数的二次近似

在最小值 $w^\star$ 的邻域内，误差函数可以用二次函数来近似。此时，恒定误差的等高线是椭圆，这些椭圆的轴与海森矩阵（Hessian matrix）的特征向量 $u_i$ 对齐，其长度与相应特征值 $\lambda_i$ 的平方根成反比。

由于特征向量 ${u_i}$ 构成一个完整的集合，任意向量 $v$ 可以写成如下形式：
[v = \sum_{i} c_i u_i]
从相关公式可得：
[v^T H v = \sum_{i} c_i^2 \lambda_i]
海森矩阵 $H$ 为正定矩阵的充要条件是其所有特征值均为正。

对于一维权重空间，一个驻点 $w^\star$ 为最小值的条件是：
[\left.\frac{\partial^2 E}{\partial w^2}\right|_{w^\star} > 0]
在 $D$ 维空间中，对应的结果是在 $w^\star$ 处计算的海森矩阵应为正定矩阵。

2. 梯度信息的使用

通过反向传播过程，可以高效地计算误差函数的梯度。使用梯度信息能够显著提高定位误差函数最小值的速度，原因如下：

在误差函数的二次近似中，误差曲面由 $b$ 和 $H$ 确定，它们总共包含 $W(W + 3)/2$ 个独立元素（因为矩阵 $H$ 是对称的），其中 $W$ 是权重向量 $w$ 的维度，即网络中自适应参数的总数。

二次近似的最小值位置取决于 $O(W^2)$ 个参数，因此在收集到 $O(W^2)$ 个独立信息之前，我们无法确定最小值的位置。

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。