深度学习中常见的优化器小结

最新推荐文章于 2024-10-08 07:55:26 发布

原创

最新推荐文章于 2024-10-08 07:55:26 发布 · 811 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #线性代数

文章目录

优化器的挑战
GD（Gradient Descent）
- - - BGD
    - SGD
    - MBGD
    - tips
- GD与一阶泰勒展开之间的关系
What is Momentum
What is Nesterov Acceleration
AdaGrad
RMSprop
Adam（Adaptive Momentum Estimation）
参考资料

优化器的挑战

局部最优
如以下函数 $f(x)=cos(\pi x)$
在这里插入图片描述
当一个优化问题的数值解在局部最优解附近时，由于目标函数有关解的梯度接近或变成零，最终迭代求得的数值解可能只令目标函数局部最小化而非全局最小化。
鞍点
梯度接近0可能是在局部最优解，但也有可能在鞍点附近。比如：
在这里插入图片描述
与局部最小不同，如果我们能往“正确”的方向前进一步，那么有可能逃离鞍点。幸运的是，我们有方法去判断这个点是局部最优还是在鞍点。
$J(\theta)=J(\theta_0)+(\theta-\theta_0)\nabla_\theta J(\theta_0) + \frac{1}{2}(\theta-\theta_0) H (\theta-\theta_0)^T$
其中，H是海瑟矩阵。因为我们现在卡在了梯度为0的点，因此，该式子可以转化为：
$J(\theta)=J(\theta_0)+\frac{1}{2}(\theta-\theta_0) H (\theta-\theta_0)^T$
那么，不难得出，如果对于所有的 $\theta$ ,都有：
$\frac{1}{2}(\theta-\theta_0) H (\theta-\theta_0)^T > 0$