线性回归问题中,上一节可以看出能求出一个“公式推导结果”,但是由于矩阵的性质,我们只能把它当成一个“巧合”,因为大多数结果是没有这种“巧合”的,无法求解。
那么得到一个目标函数Loss_function(也就是J(θ))我们应该如何求解?这里就引入了“梯度下降”。
一、梯度下降通俗解释
比如下面山上有个小孩要下山,肯定要往下走(取决于你Loss_function的方向是上升还是下降)正常求“梯度”是“向上”的方向,因此后续需要取梯度的反方向当作我的方向,这也是为什么称作“梯度下降”的原因。
计算出这一时刻的梯度,我要往前“走一步”,到达下图红点位置,需要重新计算,然后再走到蓝点,以此类推。

1.求当前位置对于Loss_function的梯度的方向;
2.沿着梯度方向“走一步”,不过走大点还是走小一点?

就是说,一小步一小步靠近最优解!走一步 求个梯度,再走一步 再求个梯度,直到loss_function“往前走一点 回来一点”,基本趋于稳定状态,就认为寻找到最优点。
二、参数更新方法
运用梯度下降法,需要我们求出的是θ0还有θ1,也就是θ0和θ1都会对结果产生影响,那么我们同时求θ0和θ1,还是拆开算呢?
我们上一节探讨

本文介绍了梯度下降算法在解决线性回归问题中的应用,通过山上的比喻通俗解释了其原理,包括求梯度方向、确定步长和参数更新,以及批量梯度、随机梯度和小批量梯度的区别。学习率的调整对算法性能至关重要。
最低0.47元/天 解锁文章
2181

被折叠的 条评论
为什么被折叠?



