单机优化之确定性算法和随机性算法随机梯度下降

本文探讨优化算法在机器学习中的应用,重点关注确定性与随机性算法。一阶确定性算法如梯度下降法适用于无约束优化,但对大规模数据集效率较低。二阶确定性算法如牛顿法收敛速度快,但计算成本高。随机优化算法如随机梯度下降法在处理海量数据时更具优势,尤其在深度学习中,由于数据规模大和非凸问题的存在,更倾向于使用随机一阶方法,如Ada系列算法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概述

目前大多数关于优化算法的收敛性质都需要依赖目标函数具有某些良好的数学属性,比如凸性和光滑性。
凸性会给优化带来很大的方便。原因是,凸函数的任何一个局部极小点都是全局最优解。非凸问题中可能存在多个局部极小点,不容易找到全局最优。
光滑性刻画了函数变化的缓急程度。直观上,如果自变量的微小变化只会引起函数值的微小变化,我们说这个函数是光滑的。对于不可导函数,通常用
Lipschitz性质
来描述光滑性。
依据是否对数据或变量的维度进行随机采样,把优化算法分为确定性算法和随机算法。
依据算法在优化过程中所利用的是一阶导数信息还是二阶导数信息,把优化算法分为一阶方法和二阶方法。

一阶确定性算法

梯度下降法

基本思想:最小化目标函数在当前状态的一阶泰勒展开,从而近似地优化目标函数本身。
局限:只适用于无约束优化问题;只适用于梯度存在的目标函数。

二阶确定性算法

牛顿法

基本思想:将目标函数在当前状态进行二阶泰勒展开,然后最小化这个近似目标函数
因为步长更为精细,牛顿法的收敛速率比梯度下降法的收敛速率显著加快,具有二次收敛速率

随机优化算法

随机梯度下降

虽然随机梯度下降法的收敛速率慢于梯度下降法,但是在每一轮计算梯度时,由于随机梯度下降法只需要计算一个样本的梯度,而梯度下降法要计算n个样本的梯度,所以当样本量很大时,随机梯度下降法比梯度下降法的总体计算复杂度要低。随机梯度下降法和它的并行版本对处理海量数据有很大优势。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

GoldMinnie

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值