梯度下降
- 求θ1, θ2使损失函数最小。
- 梯度下降方向:沿着等高线的法线方向。

梯度下降要点
1. 调整你的学习率
- 使损失函数越来越小
Adaptive Learning Rates
2.Adaptive Learning Rates
2.1 Adagrad

等价于
因为:



(所有导数的平方的均值,再开根号)
造成反差的效果


2.2 Stochastic Gradient Descent
- 一次只使用一个样本进行梯度下降
- 更快


3 Feature Scaling
- 让不同的特征属性投影到相同的范围内(均一化)
- 均一化之后,梯度下降w的选取要容易很多

梯度下降推导
- 泰勒展开式
- 给定一个初始位置和范围,就能找到这个范围内的最小值

局限
梯度下降很可能只是局部最优。
本文探讨了梯度下降法在寻找损失函数最小值时的应用,包括如何调整学习率、Adaptive Learning Rates如Adagrad和Stochastic Gradient Descent的特点。还提到了特征缩放对优化的影响以及梯度下降可能面临的局部最优问题。泰勒展开式用于近似求解最值,但需注意其局限性。
1586

被折叠的 条评论
为什么被折叠?



