视频来源:
李宏毅机器学习(2017)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
https://www.bilibili.com/video/av10590361/?p=6
使用GD的注意事项:
(1)小心的调节Learning rate
在因材设计不同的learning rate的时候采用的主要方法:
Adagrad:
2.SGD(Stochastic Gradient Dscent)
每次只拿出一个样本例子,进行GD的更新(特征就是快“试图以小见大吗??”)
优点:更快速
3.特征缩放
4.梯度下降法的问题
(1)容易陷入局部最优解
(2)在实际的计算计算中会设置一个比较小的值让其,但位置最高点附近的值有时候也会满足,所以说就是不能根据获得的值的大小判断具体的矩离最优解的远近
(3)在一些点处(除了局部最优解saddle point)导数也会为0