最速下降法杂记

最速下降法是无约束最优化问题的基础算法,它沿负梯度方向迭代以降低目标函数值。与梯度下降法不同的是,最速下降法在每次迭代中寻找目标函数在搜索方向上的最小值。算法的搜索方向在相邻迭代中正交,以避免目标函数值继续下降。在机器学习和深度学习中,学习率(步长)作为超参数调整,因为实际损失函数的复杂性使得一维搜索确定最佳学习率变得困难。因此,更快速的收敛方法通常涉及二阶方法或改进的一阶方法,如动量法和Adam算法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文参考书籍最优化方法,部分参考漫步最优化三十二——最速下降法

最速下降法作为求解无约束最优化问题的入门算法,其思想是很多其他优化算法的基础。之前我一直对梯度下降法和最速下降法之间的关系和差异理解不清楚,只知道他们都是一阶方法,都沿负梯度方向迭代降低目标函数值,查了很多资料和网上的教程,发现讲得较为繁琐。经过系统学习和思考后我认为,最速下降法是梯度下降法的一种,该算法与一般梯度下降的区别在于,每次迭代过程中都要求目标函数值下降到搜索方向下的最小值

最速下降法算法步骤

  1. 给定目标函数: m i n f ( x ) minf(\boldsymbol x) minf(x),给定算法终止条件,通常是给定某误差 ε > 0 \varepsilon > 0 ε>0
  2. 取初始点 x 0 \boldsymbol x_{0} x0,令 k = k= k= 0。
  3. 计算 g k = g ( x k ) = ▽ f ( x k ) \boldsymbol g_{k} = \boldsymbol g(\boldsymbol x_{k}) =\bigtriangledown f(\boldsymbol x_{k}) gk=g(xk)=f(xk)
  4. ∥ g k ∥ ≤ ε \left\|\boldsymbol g_{k}\right\| \leq \varepsilon gkε,则 x ∗ = x k \boldsymbol x^*=\boldsymbol x_{k} x=xk,算法终止;否则,令搜索方向 p k = − g k \boldsymbol p_{k}=-\boldsymbol g_{k} pk=gk,由一维精确搜索或近似搜索求步长 a k a_{k} ak,使得:
    f ( x k + a k p k ) = m i n f ( x k + a p k ) f(\boldsymbol x_{k}+a_{k}\boldsymbol p_{k})=minf(\boldsymbol x_{k}+a\boldsymbol p_{k}) f(xk+a
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值