最优化方法(Optimization Method)

本文探讨了数据挖掘中损失函数的重要性及最优化方法的应用。介绍了严格凸函数下的全局最优解概念,并对比了批量梯度下降法、随机梯度下降法及LBFGS等最优化算法的特点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在很多数据挖掘的算法中,我们经常可以看到损失函数(Loss Function)的存在,我们总是想损失函数越小越好,这时候最优化的方法就自然而然地出现在我们眼前。在大学数学中,由于是学术型的学习研究,很多问题都是以严格的凸函数形式出现的,最常见的严格凸函数如可行域是有界闭集的一元二次函数,如下图:


在可行域是有界闭集中,如果损失函数是严格凸函数,则有且只有一个最优解,因此找到局部极小值就是全局最小值,也就是最优解。凸函数的解空间如下图:

(图片来源参考文献)

这时候我们最简单又有效的方法就是用梯度下降法(最速下降法),对每一个变量求偏导,

最优化的方法有很多,常见的有梯度下降法牛顿法等。

首先我们先看最常用的梯度下降法,    




梯度下降法(GD)分为批量随机


Batch GD(BGD)包括攒通GD,用所有训练集(或者一部分)计算下降方向,随机(SGD)每次只包含一个训练点,计算下降速度。


BGD收敛过慢,可找到全局最优解,SGD则一般会在最优解附近。


LBFGS(拟牛顿法)

收敛速度比GD快,传统牛顿法需要存储Hesse矩阵,很耗内存容量,LBFGS用序列近似Hesse,大大减少空间,且精度比GD准。


参考文献:

https://www.cnblogs.com/shixiangwan/p/7532830.html

https://www.zhihu.com/question/20343349

http://www.cnblogs.com/ooon/p/4947688.html

http://wepon.me/files/gbdt.pdf

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值