深度学习成本函数优化:鞍点、学习率与优化器解析
1. 高维成本函数中的鞍点
在优化非凸成本函数时,鞍点是一大阻碍。随着成本函数参数空间维度的增加,鞍点的数量呈指数级增长。鞍点是驻点,即梯度为零的点,但它既不是局部最小值也不是局部最大值。
鞍点周围有一个与鞍点成本相同的长平台区域,该区域的梯度要么为零,要么非常接近零。基于梯度的优化器很难从这些鞍点中脱离出来。从数学角度来看,要确定一个点是否为鞍点,需要计算成本函数在该点的海森矩阵的特征值。如果特征值既有正的也有负的,那么该点就是鞍点。
1.1 特征值与极值点判断
- 全局最小值 :如果在驻点处海森矩阵的所有特征值都是正的,那么该点是全局最小值。
- 全局最大值 :如果在驻点处海森矩阵的所有特征值都是负的,那么该点是全局最大值。
海森矩阵的特征向量给出了成本函数曲率变化的方向,而特征值表示沿这些方向曲率变化的幅度。对于具有连续二阶导数的成本函数,海森矩阵是对称的,因此会产生一组正交的特征向量,从而为成本曲率变化提供相互正交的方向。
1.2 鞍点示例
以函数 (f(x, y) = x^2 - y^2) 为例,判断点 ((0, 0)) 是否为鞍点:
1. 计算梯度:
- (\nabla f(x, y) = 0),即 (\frac{\partial f}{\partial x} = 2x = 0),解得 (x = 0);(\frac{\partial f}{\partial y} = -2y = 0),解得 (y
超级会员免费看
订阅专栏 解锁全文
186

被折叠的 条评论
为什么被折叠?



