梯度法

本文介绍了梯度下降法的不同形式,包括全量梯度下降(BGD)、在线模式、随机梯度下降(SGD)、小批量梯度下降(MBGD)以及动量梯度下降法。还提到了凸优化一阶算法的收敛速度以及现代优化算法如NAG、AdaGrad、AdaDelta、RMSProp和Adam等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 梯度法也叫最速下降法。

2. 批处理模式

   全量梯度下降法(BGD, Batch gradient descent)。

   在最小化损失函数的时候, 首先随机取一个w0, 然后计算w0处的梯度, 然后按梯度相反的方向修改w0.

   反复迭代直到取得最小值。

   其中每次修改的大小,称为学习步长。如果步长选择太小, 则收敛速度会很慢, 如果太大则可能会震荡。

   w<t+1> = w<t> - η▽L(w<t>)

 

3. 在线模式

    当数据量(样本数)很大的时候, 批处理模式计算量太大。

    在线模式一次只处理一个数据。

    

4. 随机梯度法(SGD, Stochastic Gradient Descent)

    由于经验损失函数是n个样本对应的误差之和, 所以当在线模式, 不提前处理所有样本数据的情况下,

    我们只能得到单个样本的损失(部分损失), 随机梯度算法就直接使用部分损失函数,并根据其梯度来迭代更新w。

    本算法需要的参数:

     (1)部分损失函数

     (2)部分损失函数的梯度函数

     (3)最大迭代次数限制

     (4)精度限制

     (5)学习步长

5. 凸优化一阶算法, 当维数很大的时候, 收敛速度不超过正比于 1/√(t),  t是迭代次数.

 

6. 小批量梯度下降法(MBGD, Mini-Batch Gradient Descent)<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值