梯度方法详解-优快云博客

本文链接：https://blog.youkuaiyun.com/haiming_yeyeye/article/details/49272947

在常见的优化问题的求解过程中，经常会碰到运用梯度的方法来求得极值点，对于梯度的理解，一开始还停留在本科高数中的简单知识点，这两天通过《Convex optimization》Chapter9的学习+网络资源增进了理解，整理下来。

常用梯度方法：梯度下降法、共轭梯度法（共轭方向法）、投影梯度法、牛顿法

无约束优化问题

这些梯度方法一般被运用于无约束优化问题最值得求解。

min f (x) s . t . \forall x \in R

$\min f(x)\quad s.t.\forall x\in\mathbb R$
其中，

f(x) $f(x)$ 有一阶连续偏导数。

注：对于梯度的理解，一个曲面在某点处的梯度应该是该曲面的法向量，并且是该曲线增量最快的方向，而在该点处的偏导数应该是在该点处的一个切线。

梯度下降法（Gradient Descent）

梯度下降法又叫最速下降法（Steepest Descent）

Algorithm:
1.初始点： $x^1\in\mathbb R^n$ ,允许误差 $\varepsilon\gt 0$ ,令 $k=1$ 。
2.计算搜索方向 $d^k=-\nabla f(x^k)$ ;
3.若 $\left \| d^k \right \| \le \varepsilon$ ，则停止计算， $x^k$ 为所求极值点；否则，求最优步长 $\lambda _k$ ,使得 $f(x^k+\lambda _k d^k)=\min_\lambda f(x^k + \lambda d^k)$ 。
4.令 $x^{k+1}=x^k+\lambda d^k$ ，令 $k:=k+1$ ，转2。

在上述算法中，搜索方向总是当前迭代点的负梯度方向，即表示总是按照下降最快的方向搜索，方法的名字也就源于此。

共轭梯度法（Conjugate Gradient）

首先，要理解共轭方向。对于共轭方向，有如下定义：

设A是 $n\times n$ 的对称正定矩阵，对于 $\mathbb R^n$ 中的两个非零向量 $d^1$ 和 $d^2$ ，
若有 $d^{1^T}Ad^2=0$ ，则称 $d^1$ 和 $d^2$ 关于A共轭。

注：如果A是单位矩阵，则

$d 1 T \cdot I \cdot d 2 = 0 \Rightarrow d 1 T \cdot d 2 = 0 \Rightarrow d 1 ⊥ d 2$ $d^{1^T}\cdot I \cdot d^2=0 \Rightarrow d^{1^T}\cdot d^2=0 \Rightarrow d^1 \bot d^2$
表明共轭是正交的推广。

对于二次函数情形

min f (x) = 1 2 x T A x + b T x + c

$\min f(x)=\frac12 x^TAx+b^Tx+c$
其中

x∈Rn $x\in \mathbb R^n$ ，A是对称 正定矩阵，

b∈Rn $b\in \mathbb R^n$ ,c是常数。

Algorithm
1.任取初始点 $x^1$ ，精度要求 $\varepsilon$ ，令 $k=1$ 。
2.令 $g_1=\nabla f(x^1)$ ，若 $\left \| g_1 \right \| \lt \varepsilon$ ，停止， $x^1$ 为所求极小点；
否则，令 $d^1=-g_1$ ，利用公式
$λ k = - g T k d k d k T A d k (1)$ $\lambda _k=- \dfrac{g_k^T d^k}{{d^k}^T Ad^k}\tag{1}$ 计算 $\lambda _1$ ,令 $x^2=x^1+\lambda _1d^1$ 。
3.令 $g_{k+1}=\nabla f(x^{k+1})$ ,若 $\left \| g_{k+1} \right \| \lt \varepsilon$ ，停止， $x^{k+1}$ 为所求极小点；否则，令 $d^{k+1}=-g_{k+1}+\beta _k d^k$ ,其中 $\beta _k$ 用公式
$β k = d k T A g k + 1 d k T A d k (2)$ $\beta _k=\frac{{d^k}^T Ag_{k+1}}{{d^k}^T Ad^k} \tag{2}$ 计算得到。令 $k:=k+1$ 。
4.利用公式（1）计算 $\lambda_k$ ,令 $x^{k+1}=x^k+\lambda _kd^k$ ,转3。

在上面的算法中，(1)式确定了步长，推导过程为：
要求解 $\min _\lambda f(x^k+\lambda d^k)$ 。记 $\varphi (\lambda)=f(x^k +\lambda d^k)$ ，令 $\varphi '(\lambda)=\nabla f(x^k+\lambda d^k)^Td^k=0$ ，即有