《神经网络设计》读书笔记——性能优化(二)

本文介绍了最速下降法的基本原理及应用,包括梯度下降法的迭代公式、学习速率的选择方法,以及对于二次函数求解时的稳定性条件。此外还讨论了如何沿特定方向进行最小化搜索。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最速下降法

最速下降法也称为梯度下降法(gradient descent)

  • xk+1=xkαkgk

确定学习速度αk的常见方法:

  • 选择固定的αk值(通常为0.01或0.02)
  • 使基于αk的性能指数F(x)每次迭代最小化,即沿下列方向实现最小化:xkαkgk

稳定的学习速度

对于任意函数,我们不可能确定最大的可行学习速度,但对于二次函数是可以的

假定性能指数是一个二次函数,那么最速下降法稳定条件为:

  • |(1αλ)|<1

如果性能指数有一个强极小点,则其特征值为正数,上式可化为

  • α<2λmax

学习速度受限于赫森矩阵的最大特征值λmax
在最大特征值的特征向量方向上收敛最快。在最小特征值的特征向量方向上收敛最慢。
最小特征值和学习速度共同决定了算法收敛的快慢。特征值大小相差越大,最速下降法收敛越慢

沿直线最小化

沿直线xk+1=xk+αkpk的最小学习速度为:

  • αk=gkTpkpkTApk

沿直线xk+1=xk+αkpk最小化后:

  • gTk+1pk=0
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值