参考来源:(6 封私信 / 20 条消息) 什么是梯度下降法? - 知乎 (zhihu.com) ------------马同学
每一次的梯度向量
模长列出来,可以看到是在不断减小的,因此这种方法称为梯度下降法:

这也比较好理解,当最终趋向于 0 时有:

所以梯度下降法求出来的就是最小值(或者在附近)。
步长设置:
上面谈到了可以通过步长
来控制每次移动的距离,下面来看看不同步长对最终结果的影响。
步长过小
如果设
参考来源:(6 封私信 / 20 条消息) 什么是梯度下降法? - 知乎 (zhihu.com) ------------马同学
每一次的梯度向量
模长列出来,可以看到是在不断减小的,因此这种方法称为梯度下降法:

这也比较好理解,当最终趋向于 0 时有:

所以梯度下降法求出来的就是最小值(或者在附近)。
步长设置:
上面谈到了可以通过步长
来控制每次移动的距离,下面来看看不同步长对最终结果的影响。
步长过小
如果设
468

被折叠的 条评论
为什么被折叠?