数值优化方法:梯度下降，最速梯度下降与共轭梯度下降

最新推荐文章于 2020-12-17 09:56:20 发布

flztiii

最新推荐文章于 2020-12-17 09:56:20 发布

阅读量1.5k

点赞数 3

分类专栏：数值优化文章标签：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/flztiii/article/details/106661827

版权

数值优化方法:梯度下降，最速梯度下降与共轭梯度下降

本文对常见的数值优化方法进行总结，重点关注优化方法的原理、迭代过程和计算复杂度。常见的数值优化方法包括梯度下降法（最速梯度下降法）、牛顿法、共轭梯度下降法等。本笔记的算法思路只是便于对各种优化方法进行理解，并不是完整的逻辑推导，如果想了解其中的数学推导，建议还是查看相关教材。（文章里公式渲染有点慢，需要等一会）

本文相关代码在https://github.com/flztiii/numerical_optimization_test.git

梯度下降算法

算法思路

考虑到以下问题,找到一个 $x^*$ 使 $f(x^*) < f(x), \forall x \in R^n$ 。梯度下降算法的思路很简单：每一次迭代的点要比上一次次迭代点的值更小。用公式表达就是

$f(x_{k+1})$ < $f(x_{k}) \quad (1)$

接下来就是如何根据这个思路得到从 $x_k$ 到 $x_{k+1}$ 的增量 $\Delta x$ 。可以对 $f (x)$ 进行一阶泰勒展开，表达式如下所示

$f(x+\Delta x) = f(x) + f^{'}(x) \cdot \Delta x \quad (2)$

再根据公式(2)，可以得到

$f(x+\Delta x) - f(x) = f^{'}(x) \cdot \Delta x$ < $\quad (3)$

那么，只要满足公式(4)的条件，就可以得到 $f(x+\Delta x)$ < $f (x)$ 。为了使公式(4)成立，可以令(总所周知，平方大于0)

$\Delta x = -\alpha \cdot f^{'}(x),\alpha$ > $\quad (4)$

所以，可以得到从 $x_k$ 到 $x_{k+1}$ 的迭代过程满足

$x_{k+1} = x_k + \Delta x = x_k - \alpha \cdot f^{'}(x_k) \quad (5)$

时，始终存在 $f(x_{k+1}) < f(x_k)$ 。也就是一开始谈到的思路，只要不断寻找值更小的点，就可以最终找到最小值。

算法过程

给出初始点 $x_0$ ，学习率 $\alpha$
计算 $x_0$ 处的梯度 $f^{'}(x_0)$
判断 $f^{'}(x_0)|$ 是否小于阈值 $\delta$ ，如果小于，停止迭代，算法结束
得到下一个迭代点 $x_1 = x_0 - \alpha \cdot f^{'}(x_0)$
重复2-4过程

算法总结

梯度下降算法是最为基础的优化方法之一，它只需要知道梯度方法，不需要计算海森矩阵。计算复杂度较低。但是此方法容易陷入局部极小值，收敛结果对初始点和学习率的要求较高。

最速梯度下降

算法思路

最速梯度下降算法与梯度下降算法思路相似，都是希望每一次迭代的点要比上一次次迭代点的值更小。但是最速梯度下降算法与梯度下降算法的不同之处在于，它对学习率进行了调整，使学习率并不是一个固定值，而是不断变化的。

最速梯度下降算法希望在 $x_k$ 处沿梯度方法 $f(x_k)$ 下降时，找到一个学习率 $\alpha_k$ ，使得沿 $f(x_k)$ 下降量比选择其他 $\alpha$ 都要大。用公式表达就是

$\alpha_k = argmin_{\alpha} f(x_k - \alpha \cdot f^{'}(x_k)) \quad (6)$

以上就是最速梯度下降算法的核心。接下来，使用二次型为例子，继续进行说明。（因为二次型具有比较好的性质）我们假设

$\frac{1}{2} x^T A x - b^T x \quad (7)$

则可以计算得到f(x)的梯度和海森矩阵分别为

$f^{'}(x) = Ax - b \quad (8)$
$f^{''}(x) = A \quad (9)$

同时我们可以令

$g(\alpha) = f(x_{k+1})= f(x_k - \alpha f^{'}(x_k)) \quad (10)$

则公式(6)的必要条件为 $\frac{d g(\alpha)}{d \alpha} = 0$ 。因此，我们通过公式(10)中可以得到

$g^ {'} (\alpha)= -f^ {'} (x_{k+1})^ T f ^ {'}(x_k)=0 \quad (11)$

最低0.47元/天解锁文章

博客等级

码龄9年

9
原创

44
点赞

173
收藏

20
粉丝

关注

私信

热门文章

分类专栏

最新评论

TEB局部轨迹规划代码解读
润发一百年: 佬，写得太好了吧
轨迹规划论文代码的简单实现
优快云-Ada助手: 恭喜您第9篇博客的顺利发布！看到您实现了“轨迹规划论文代码”的简单实现，我非常兴奋。您的博客内容一直都很有深度和实用性，而且您总是尽量保持谦虚的态度，这让我很受启发。在下一步的创作中，我建议您可以尝试更多的实际案例，例如应用到真实的机器人或无人驾驶车辆中。这样一来，读者们可以更直观地理解您的研究成果，并将其应用到实际生活中。再次恭喜您的持续创作，期待看到您未来更多精彩的博客！
TEB局部轨迹规划代码解读
优快云-Ada助手: 非常感谢这篇博客，TEB局部轨迹规划是一个非常重要的技术，解读其代码对于学习ROS机器人开发的同学们非常有帮助。我觉得下一篇博客可以继续深入探讨ROS机器人开发中的SLAM技术，尤其是ORB-SLAM2算法的实现和优化。这样的技术文章对其他用户也会非常有借鉴意义，相信会吸引更多读者的关注。期待你的下一篇博客！为了方便博主创作，提高生产力，优快云上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.youkuaiyun.com/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.youkuaiyun.com/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
TEB局部轨迹规划代码解读
nicklgw: 讲的真好
粒子群优化路径规划算法代码
flztiii: 额,代码写的有点久,有点忘了.我应该是改了里面的路径基元,但具体方法就不太记得了,我改一下,把这两篇参考都给出来吧

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。