机器学习之梯度下降
梯度下降
我们需要寻找一个最合适的函数(模型)就需要找到一个最好的优化方法(optimization problem)。在实际的计算中我们会先定义一个Loss函数
- 当有两个参数时,我们需要随机选取两个值作为起点Randomly start at 𝜃0就是我们的初始点的位置
- 分别计算两个值的偏微分。接着初始值减去计算得到偏微分值最后得到了一组新的参数。然后以此类推就可以得到新的一系列的参数。
终上所述得到的函数应该是:
- 使用图形展示就是:
调整学习率(Tuning your learning rates)
黑色的是Loss梯度曲线。
红色的是学习率 适度情况下最合适的方法。
蓝色的线是学习率过低,需要很长的时间去学习,不是很合适。
绿色的是学习率过大直接跳过了最合适的点。
黄色的直接跳过了整个loss范围。
终上所述:学习率的大小在loss的选取中非常的重要,有些时候可以说是至关重要。
如图的内容只能够展示1-2个参数的情况,3个及以上参数则无法用该办法展示。
我们可以通过画出不同学习率和Loss之间关系的图来查看一个比较好的结果。
通过上图的方式可以非常形象的看到各个系列之间的情况。
自适应学习率(Adaptive Learning Rates)
通常学习率是随着参数的更新而改变的(越来越小)
刚开始距离我们的最佳值距离比较大需要大跨步的进行追击,但是当距离越来越近为了不跨过最好的那个点,我们要放慢脚步逐步的去查找。然后就会出现随着参数数据的更新学习率越来越小。