1、梯度下降法
梯度下降,从某一初始点出发,找到最陡或者梯度最大的方向,以一定步长沿着最陡的方向往低处走,知道遇到极小值。属于一阶优化方法。
2、牛顿法
牛顿法,从某一初始点出发,用一个二次的曲线或者曲面局部拟合目标函数,然后通过求解二次曲线或曲面的梯度,一步到达曲线或者曲面的最小值,然后继续用新的二次曲线或曲面局部拟合。如果目标函数是近似二次的,则机会一步到达极小值,因此比一阶方法快。本质上是因为利用了二阶信息后,相当于知道了梯度的变化趋势信息,因此可以对函数值变化有个更好地预判。
缺点是在求二次曲面最小值时,需要求黑塞矩阵的逆,在参数数量很大情况下,求解很费时,有时候黑塞矩阵不可逆等。
3、拟牛顿法
拟牛顿法就是类似牛顿法的意思,依然用二次曲线或者曲面局部拟合目标函数,依然需要计算梯度信息,但是不再求解黑塞矩阵的逆,而是直接用递推法构造一个正定矩阵作为黑塞矩阵或者黑塞矩阵的逆。