局部极小值
该点是损失最小的点,周围其他点的损失都更大。
鞍点
鞍点的梯度是0,但不是局部极小值。鞍点周围存在损失更低的点。
临界点
梯度为0的点,统称为临界点。
判断临界点是局部极小值还是鞍点,需要通过泰勒级数近似得到损失函数。损失函数近似为
用v表示θ − θ′,可得到三种情况:
- 对于所有
,
,是局部极小值。
- 对于所有
,
,是局部极大值。
- 对于所有
,
时而大于0,时而小于0,是鞍点。
批量和动量
在计算梯度的时候,并不是对所有数据损失计算梯度,而是把所有的数据分成一个一个的批量。
遍历所有批量的过程称为一个回合(epoch)。
批量梯度下降法,每次更新更稳定、更准确。
只要取出一笔数据即可计算损失、更新一次参数的方法。
随机梯度下降法,更容易逃离局部最小值。
批量大小越大,验证集准确率越差。
在物理的世界里面,一个球从高处滚下来的时候,它并不一定会被鞍点或局部最小值卡住,如果将其应用到梯度下降中,这就是动量。