一:直接梯度下降法
当一个模型不能像线性回归那样,得出一个确定的显示解时,即无显示解时,则可用梯度下降法,得出模型的较优权重
1.挑选一个随机初始值w0
2.在接下来的时刻里面,不断去更新w0的值,使得它接近我们的最优解,
对上图的说明:
η是学习率,∂wt−1是在wt-1处的梯度,∂ℓ为损失函数
梯度的含义:使得函数的值增加最快的方向
负梯度的含义:使得函数的值减少最快的方向(此公式中有个负号,所以是负梯度)
学习率:沿着这个方向每次走多远(即步长)
超参数:即需要人为来指定的值
1.问:为什么通过上述公式能得到最优解?
因为每次迭代都沿着损失函数的方向下降的方向改变参数(导数项),所以会找到最优解
2.选择学习率:
后面会有教程教大家如何选取合适的学习率
二:小批量随