梯度下降法、牛顿法早就知道,怎么使用也很简单,但一直没搞太明白,为什么“梯度方向就是下降最快的方向”?什么站在山顶往下走只是结果,根本没解释原因,这次终于搞清楚了,写下来以防忘记。
梯度下降法
对于一个函数,
可能是一维或者多维的变量,给
一个增量
使它的值变小,要使
在这一步变得最小,即下降最快,根据泰勒展开
这里舍去二阶导数后面的小量,那么要取得最小的
理解寻优算法:梯度下降法与牛顿法的原理解析
本文介绍了梯度下降法和牛顿法的原理,探讨了为什么梯度方向是函数下降最快的方向,并对牛顿法的高效性和限制条件进行了简单说明。
梯度下降法、牛顿法早就知道,怎么使用也很简单,但一直没搞太明白,为什么“梯度方向就是下降最快的方向”?什么站在山顶往下走只是结果,根本没解释原因,这次终于搞清楚了,写下来以防忘记。
对于一个函数,
可能是一维或者多维的变量,给
一个增量
使它的值变小,要使
在这一步变得最小,即下降最快,根据泰勒展开
这里舍去二阶导数后面的小量,那么要取得最小的

被折叠的 条评论
为什么被折叠?