Datawhale X 李宏毅苹果书 AI夏令营 (Task 1)

局部极小值

该点是损失最小的点,周围其他点的损失都更大。

鞍点

鞍点的梯度是0,但不是局部极小值。鞍点周围存在损失更低的点。

临界点

梯度为0的点,统称为临界点。

判断临界点是局部极小值还是鞍点,需要通过泰勒级数近似得到损失函数。损失函数近似为

用v表示θ − θ′,可得到三种情况:

  • 对于所有vv^{T}Hv> 0,是局部极小值。
  • 对于所有vv^{T}Hv< 0,是局部极大值。
  • 对于所有vv^{T}Hv时而大于0,时而小于0,是鞍点。

批量和动量

在计算梯度的时候,并不是对所有数据损失计算梯度,而是把所有的数据分成一个一个的批量。

遍历所有批量的过程称为一个回合(epoch)。

批量梯度下降法,每次更新更稳定、更准确。

只要取出一笔数据即可计算损失、更新一次参数的方法。

随机梯度下降法,更容易逃离局部最小值。

批量大小越大,验证集准确率越差。

在物理的世界里面,一个球从高处滚下来的时候,它并不一定会被鞍点或局部最小值卡住,如果将其应用到梯度下降中,这就是动量。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值