最优化的两个根基
1: 一阶收敛:梯度下降
1 梯度下降法是用一个平面去拟合当前的局部曲面
2 只考虑了局部的最优,没有全局思想
2: 二阶收敛:牛顿法
1: 用一个二次曲面去拟合你当前所处位置的局部曲面
2: 目光更加长远,所以少走弯路
2.1 牛顿法扩展1:拟牛顿法
1: Hessian矩阵引入复杂性,解决这个问题的办法是拟牛顿法
2: 满足拟牛顿的条件:构造G
3: 例子:Davidon-Fletcher-Powell(DFP)算法
2.2 牛顿法扩展2:高斯牛顿法
1: 仅用于:非线性回归问题
2: 技巧是:将二次偏导省略,于是可以写成雅可比形式
(plus:雅可比矩阵是多元函数一阶偏导数以一定方式排列成的矩阵,体现了一个可微方程与给出点的最优线性逼近)
2.3 牛顿法扩展3:Levenberg-Marquardt方法
1: 仅用于:非线性回归问题
2: L-M方法是对梯度下降法与高斯-牛顿法进行线性组合:以充分利用两种算法的优势
3: 通过在Hessian矩阵中:加入阻尼系数 µ
4: µ作用:1: 来控制每一步迭代的步长以及方向 2: 保证近似的H一定可逆
3: 比较图
参考:https://blog.youkuaiyun.com/a6333230/article/details/83304098
参考
2:https://blog.youkuaiyun.com/piaoxuezhong/article/details/60135153
2.1: https://blog.youkuaiyun.com/u014688145/article/details/53688585
2.3: https://blog.youkuaiyun.com/anArkitek/article/details/101092590