最优化方法 ——— 一阶优化

最新推荐文章于 2025-09-07 21:16:38 发布

原创最新推荐文章于 2025-09-07 21:16:38 发布 · 4.6k 阅读

CC 4.0 BY-SA版权

本文探讨了一阶优化方法，包括投影梯度下降(PGD)、AmsGrad(Adam改进版)、AdamNC、SAG(随机梯度均值)、SVRG(方差消减的随机梯度)以及ADMM(交替方向乘子法)，详细阐述了这些方法的工作原理和应用场景，对于理解和应用优化算法具有指导意义。

AI助手已提取文章相关产品：

投影梯度下降算法PGD(Projected Gradient Descent)

, P为投影算子，其根据具体的优化问题而定。比如：

，投影算子为

AmsGrad (Adam的改进版)

其中 $\beta_2$ 是常量，而 $\beta_{1t}$ 是随迭代而变的，往往取值为 $\beta_{1t}=\frac{\beta_1}{t}$ , $\beta_1$ 为常量

AdamNC (对Adam中的参数 $\beta_1$ 与 $\beta_2$ 进行自适应调整）

$\beta_{1t}=\frac{\beta_1}{t}$ , $\beta_{2t}=1-\frac{1}{t}$

SAG方法(随机梯度均值)

针对SGD(随机梯度下降)方法的不足“收敛速度是亚线性的”，且梯度的方差很大，提出如下SAG方法：

在内存中为训练集 $x_i(i=1,2,...,N)$ 的每个样本都维护一个旧的梯度 $y_i$ , 并将所有样本的历史梯度和记为d, 在训练过程中的第t次迭代时，从训练集中随机选取样本i, 利用第(t-1)次学得参数 $\theta_{t-1}$ 计算样本i的梯度值 $g_{t-1}(x_i)=f^`(x_i, \theta_{t-1})$ , 以 $d=d-g_{old}(x_i)+g_{t-1}(x_i)$ 更新d, 然后同时以 $g_{old}(x_i)=g_{t-1}(x_i)$ 更新样本i的梯度值，最后利用d来更新参数：

$\theta_t=\theta_{t-1} -\frac{\eta}{N}d$

SVRG方法(方差消减的随机梯度）

针对SAG(随机梯度均值)的特点：具有线性收敛速度，但其只能适用于loss函数为光滑凸的情况，且需要为每个样本都保留梯度信息。提出SVAG方法，该方法可以无需为每个样本保留梯度信息，从而节省空间开销，更重要的是可用于非凸问题的优化。

每隔w次迭代对计算1次所有样本的梯度： $\bar \mu = \frac{1}{N}\sum\limits_{i = 1}^N {{g_i}(} \bar \theta )$ ， $\bar \theta$ 为这w次迭代的 $\theta$ 的均值，而在这w次迭代内利用上一个w次的 $\bar \mu$ 和 $\bar \theta$ 进行参数更新, 方式为： $\theta_t=\theta_{t-1} -\eta (\bar \mu + g(\theta_{t-1}, x_i) - g(\bar \theta, x_i))$

ADMM(交替方向乘子法)

ADMM通常解决的是等式约束的优化问题，而且这个优化问题还有两个优化变量 x跟 z, 形式如下：

$\mathop {\min }\limits_{x,z} f(x) + g(y)\;\;\;\;s.t.\;Ax + By = c$

通过拉氏方法将其等价表示为无条件的最小化问题： $L_{\lambda}(x,y,\lambda)=f(x) + g(y)\; + \;{\lambda ^T}(Ax + By - c) + \frac{\beta }{2}\left\| {Ax + By - c} \right\|_2^2$ ，最末项是为了增加该优化问题的凸性。