L-BFGS算法介绍

最新推荐文章于 2025-11-25 10:04:32 发布

转载

最新推荐文章于 2025-11-25 10:04:32 发布 · 1.3w 阅读

·

4

·

文章标签：

#matlab #java #c/c++

L-BFGS是解决无约束非线性优化的高效方法，因其快速收敛和低内存需求在机器学习中广泛应用。它基于梯度下降，但通常收敛速度更快。文章对比了梯度下降、牛顿法和拟牛顿法，介绍了L-BFGS如何通过存储有限历史信息减少内存消耗，特别适用于高维问题。

本文由作者林洋港授权网易云社区发布。

一、 L-BFGS是什么

L-BFGS是解无约束非线性规划问题最常用的方法，具有收敛速度快、内存开销少等优点，在机器学习各类算法中常有它的身影。简单的说，L-BFGS和梯度下降、SGD干的同样的事情，但大多数情况下收敛速度更快，这点在大规模计算中很重要。下图是深度学习Autoencoder模型不同优化方法的比较。

9a3f1e3d-1a25-4d2e-bfda-4d47d51d6623

二、 L-BFGS“之前”的那些方法

这里的“之前”并不是说L-BFGS问世之前就已经存在的方法，而是指为了更好的理解L-BFGS需要了解的其他方法。无约束问题定义：

b969f667-a1f1-4dcc-96e3-6109fe5e7ead

我们先从泰勒展开开始，这可以说是本文介绍的所有方法的基础。f在 b3a89ad5-2177-4c7d-9d42-1fcf0e1ec48b 的一阶泰勒展开为

2266b6c1-1d53-436d-a5d1-3efdc6c3258b

二阶泰勒展开为

2e918e73-6183-479e-ae01-331a8b37d063

去掉最后的余项，得到

aa668410-b74d-45dc-b5ee-13a960e1f1f2

d7e23b5e-5e9e-4c44-824b-fa5d87706e3f

2.1 最速下降法（Gradient descent）

CD算法的一个前提条件就是f在 b3a89ad5-2177-4c7d-9d42-1fcf0e1ec48b 连续可微，并且在处的导数不为0。由公式1可知当第二项<0时f的值将下降。由Cauchy-Schwartz不等式可得

e40640ad-6a3f-4351-8186-1eb94e63bc4e 为最速下降方向。因此迭代公式为

最低0.47元/天解锁文章

评论 1

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。