对于多维函数,每个点在每一个方向上的导数是不同的,如果使用梯度下降,有可能在某一方向上导数增加很快,而在另外一方向上增加很慢,梯度下降是不知道导数的这些信息的,因为梯度只是一阶导数,只有二阶导数能反应一阶导数的变化情况,也就是Hessian矩阵。
一般来说, 牛顿法主要应用在两个方面, 1, 求方程的根; 2, 最优化.
1), 求解方程
并不是所有的方程都有求根公式, 或者求根公式很复杂, 导致求解困难. 利用牛顿法, 可以迭代求解.
原理是利用泰勒公式, 在x0处展开, 且展开到一阶, 即f(x) = f(x0) + (x-x0) f’(x0)
求解方程f(x) = 0, 即