L-BFGS算法介绍

L-BFGS是解决无约束非线性优化的高效方法,因其快速收敛和低内存需求在机器学习中广泛应用。它基于梯度下降,但通常收敛速度更快。文章对比了梯度下降、牛顿法和拟牛顿法,介绍了L-BFGS如何通过存储有限历史信息减少内存消耗,特别适用于高维问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文由作者林洋港授权网易云社区发布。


一、 L-BFGS是什么

L-BFGS是解无约束非线性规划问题最常用的方法,具有收敛速度快、内存开销少等优点,在机器学习各类算法中常有它的身影。简单的说,L-BFGS和梯度下降、SGD干的同样的事情,但大多数情况下收敛速度更快,这点在大规模计算中很重要。下图是深度学习Autoencoder模型不同优化方法的比较。

9a3f1e3d-1a25-4d2e-bfda-4d47d51d6623

二、 L-BFGS“之前”的那些方法


这里的“之前”并不是说L-BFGS问世之前就已经存在的方法,而是指为了更好的理解L-BFGS需要了解的其他方法。无约束问题定义:

b969f667-a1f1-4dcc-96e3-6109fe5e7ead

我们先从泰勒展开开始,这可以说是本文介绍的所有方法的基础。f在b3a89ad5-2177-4c7d-9d42-1fcf0e1ec48b的一阶泰勒展开为

2266b6c1-1d53-436d-a5d1-3efdc6c3258b

二阶泰勒展开为

2e918e73-6183-479e-ae01-331a8b37d063

去掉最后的余项,得到

aa668410-b74d-45dc-b5ee-13a960e1f1f2

d7e23b5e-5e9e-4c44-824b-fa5d87706e3f

2.1 最速下降法(Gradient descent)


CD算法的一个前提条件就是f在b3a89ad5-2177-4c7d-9d42-1fcf0e1ec48b连续可微,并且在b3a89ad5-2177-4c7d-9d42-1fcf0e1ec48b处的导数不为0。由公式1可知当第二项<0时f的值将下降。由Cauchy-Schwartz不等式可得

e40640ad-6a3f-4351-8186-1eb94e63bc4e为最速下降方向。因此迭代公式为

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值