单机优化之确定性算法和随机性算法随机梯度下降

本文探讨优化算法在机器学习中的应用，重点关注确定性与随机性算法。一阶确定性算法如梯度下降法适用于无约束优化，但对大规模数据集效率较低。二阶确定性算法如牛顿法收敛速度快，但计算成本高。随机优化算法如随机梯度下降法在处理海量数据时更具优势，尤其在深度学习中，由于数据规模大和非凸问题的存在，更倾向于使用随机一阶方法，如Ada系列算法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述

目前大多数关于优化算法的收敛性质都需要依赖目标函数具有某些良好的数学属性，比如凸性和光滑性。
凸性会给优化带来很大的方便。原因是，凸函数的任何一个局部极小点都是全局最优解。非凸问题中可能存在多个局部极小点，不容易找到全局最优。
光滑性刻画了函数变化的缓急程度。直观上，如果自变量的微小变化只会引起函数值的微小变化，我们说这个函数是光滑的。对于不可导函数，通常用Lipschitz性质来描述光滑性。
依据是否对数据或变量的维度进行随机采样，把优化算法分为确定性算法和随机算法。
依据算法在优化过程中所利用的是一阶导数信息还是二阶导数信息，把优化算法分为一阶方法和二阶方法。