深度学习为什么使用梯度下降，而不使用牛顿法或拟牛顿法优化？

原创已于 2023-08-08 18:09:46 修改 · 2.5k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2020-03-17 17:03:50 首次发布

15 篇文章

订阅专栏

本文对比了梯度下降法、牛顿法及拟牛顿法在不同场景下的应用效果，包括时间复杂度、收敛速度、对初始值的要求及适用场景。梯度下降法适用于特征维度较大的场景，如神经网络训练；牛顿法和拟牛顿法则更适用于特征维度较小且满足一定条件的场景，如逻辑回归。

	梯度下降法 (SGD 为例)	牛顿法	拟牛顿法
时间复杂度 (单次迭代)	只需计算 1 阶导，时间复杂度低，为 O(n)	需计算 Hessian 矩阵及其逆，时间复杂度高，为 O(n3)	用正定矩阵近似 Hessian 矩阵的逆，时间复杂度为 O(n2)
收敛速度	收敛慢，迭代次数大	收敛快，迭代次数小	收敛快，迭代次数小
初始值要求	无太强要求，容易逃离鞍点	对初始值有一定要求，非凸问题容易陷入鞍点 (牛顿法步长会越来越小
应用场景	特征维度较大的场景，如特征数 > 10k	特征维度较小的场景	需满足拟牛顿条件，更适合凸问题