《神经网络设计》读书笔记——性能优化（二）

若时光倒转

于 2017-07-18 10:38:39 发布

阅读量468

点赞数

CC 4.0 BY-SA版权

分类专栏：神经网络设计文章标签：性能优化神经网络最速下降法梯度下降算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wning13/article/details/75279435

神经网络设计专栏收录该内容

7 篇文章

订阅专栏

本文介绍了最速下降法的基本原理及应用，包括梯度下降法的迭代公式、学习速率的选择方法，以及对于二次函数求解时的稳定性条件。此外还讨论了如何沿特定方向进行最小化搜索。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最速下降法

最速下降法也称为梯度下降法(gradient descent)

$x_{k+1}=x_k-\alpha_kg_k$

确定学习速度 $\alpha_k$ 的常见方法：

选择固定的 $\alpha_k$ 值（通常为0.01或0.02）
使基于 $\alpha_k$ 的性能指数 $F(x)$ 每次迭代最小化，即沿下列方向实现最小化： $x_k-\alpha_kg_k$

稳定的学习速度

对于任意函数，我们不可能确定最大的可行学习速度，但对于二次函数是可以的

假定性能指数是一个二次函数，那么最速下降法稳定条件为：

$|(1-\alpha\lambda)|<1$

如果性能指数有一个强极小点，则其特征值为正数，上式可化为

$\alpha<{2\over{\lambda_{max}}}$

学习速度受限于赫森矩阵的最大特征值 $\lambda_{max}$ 。
在最大特征值的特征向量方向上收敛最快。在最小特征值的特征向量方向上收敛最慢。
最小特征值和学习速度共同决定了算法收敛的快慢。特征值大小相差越大，最速下降法收敛越慢

沿直线最小化

沿直线 $x_{k+1}=x_k+\alpha_kp_k$ 的最小学习速度为：

$\alpha_k=-{{g_k}^Tp_k\over{{p_k}^TAp_k}}$

沿直线 $x_{k+1}=x_k+\alpha_kp_k$ 最小化后：

$g_{k+1}^Tp_k=0$

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。