三种基本梯度下降策略的简单介绍

本文深入解析批量梯度下降、随机梯度下降及小批量梯度下降三种策略,对比其在计算效率、样本适用性及收敛特性上的差异。批量梯度下降利用所有样本计算误差,适合小样本集;随机梯度下降每次只使用一个样本,速度快但可能陷入局部最优;小批量梯度下降取两者中间值,平衡速度与准确性。

批量梯度下降

每次迭代用所有的样本计算误差进行梯度更新,从运算上来说把全部样本用矩阵进行计算最简单暴力,同时因为是参照所有样本计算的误差所以能更好的代表预测整体的水平,而且当函数为凸函数时一定会找到最优解。

批量梯度不适用于样本量特别大的学习,虽然是用了矩阵,但是计算过大的数据量会让计算过程变得很慢,效率不高。

随机梯度下降

与批量梯度下降的策略相反,每次迭代仅用随机的一个样本计算误差进行梯度更新,从效率上来说计算梯度并进行参数更新是最快的。

随机梯度下降,梯度下降的过程是随机的,因为任何一个单个样本都无法代表整体样本,因此每次的梯度计算和参数更新都是针对于局部的,虽然效率高且不受样本数的影响,但是可能会陷入局部最优而不是全局最优(在函数是强凸情况下也一样会存在该问题)。

小批量梯度下降

是“随机”与“整体”的一个平衡策略,即每次选取batch_size个样本进行梯度计算和参数更新,一定程度上同时拥有批量梯度下降和随机梯度下降的优点。

小批量梯度下降表现的优劣取决于batch_size的选取,两个极端情况,batch_size等于样本数量就成为了批量梯度下降,等于1就成为了随机梯度下降。合理的选择batch_size的大小时,收敛的路线是批量梯度下降和随机梯度下降的“平衡”,即加快了批量梯度下降的收敛过程,减弱了随机梯度下降的震荡。

三种梯度下降策略收敛图

图片来源于其他博客,可以形象的展示出三种梯度下降策略收敛途径。
在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值