在常见的优化问题的求解过程中,经常会碰到运用梯度的方法来求得极值点,对于梯度的理解,一开始还停留在本科高数中的简单知识点,这两天通过《Convex optimization》Chapter9的学习+网络资源增进了理解,整理下来。
常用梯度方法:梯度下降法、共轭梯度法(共轭方向法)、投影梯度法、牛顿法
无约束优化问题
这些梯度方法一般被运用于无约束优化问题最值得求解。
其中, f(x) 有一阶连续偏导数。
注:对于梯度的理解,一个曲面在某点处的梯度应该是该曲面的法向量,并且是该曲线增量最快的方向,而在该点处的偏导数应该是在该点处的一个切线。
梯度下降法(Gradient Descent)
梯度下降法又叫最速下降法(Steepest Descent)
Algorithm:
1.初始点: x1∈Rn ,允许误差 ε>0 ,令 k=1 。
2.计算搜索方向 dk=−∇f(xk) ;
3.若 ∥∥dk∥∥≤ε ,则停止计算, xk 为所求极值点;否则,求最优步长 λk ,使得 f(xk+λkdk)=minλf(xk+λdk) 。
4.令 xk+1=xk+λdk ,令 k:=k+1 ,转2。
在上述算法中,搜索方向总是当前迭代点的负梯度方向,即表示总是按照下降最快的方向搜索,方法的名字也就源于此。
共轭梯度法(Conjugate Gradient)
首先,要理解共轭方向。对于共轭方向,有如下定义:
设A是 n×n 的对称正定矩阵,对于 Rn 中的两个非零向量 d1 和 d2 ,
若有 d1TAd2=0 ,则称 d1 和 d2 关于A共轭。注:如果A是单位矩阵,则
d1T⋅I⋅d2=0⇒d1T⋅d2=0⇒d1⊥d2
表明共轭是正交的推广。
对于二次函数情形
其中 x∈Rn ,A是对称 正定矩阵, b∈Rn ,c是常数。
Algorithm
1.任取初始点 x1 ,精度要求 ε ,令 k=1 。
2.令 g1=∇f(x1) ,若 ∥g1∥<ε ,停止, x1 为所求极小点;
否则,令 d1=−g1 ,利用公式λk=−gTkdkdkTAdk(1)计算 λ1 ,令 x2=x1+λ1d1 。
3.令 gk+1=∇f(xk+1) ,若 ∥∥gk+1∥∥<ε ,停止, xk+1 为所求极小点;否则,令 dk+1=−gk+1+βkdk ,其中 βk 用公式
βk=dkTAgk+1dkTAdk(2)计算得到。令 k:=k+1 。
4.利用公式(1)计算 λk ,令 xk+1=xk+λkdk ,转3。
在上面的算法中,(1)式确定了步长,推导过程为:
要求解
minλf(xk+λdk)
。记
φ(λ)=f(xk+λdk)
,令
φ′(λ)=∇f(xk+λdk)Tdk=0
,即有
令 gk=λf(xk)=Axk+b ,则有 [gk+λAdk]Tdk=0 ,化解得到(1)式。
(2)式用于求下一个搜索方向,如何确定
βk
?
迭代式:
dk+1=−gk+1+βkdk
要求
dk+1
和
dk
关于A共轭。则在上式两边同时左乘
dkTA
,得到
在算法中,我们注意到第2步 d1 直接使用的是负梯度,这保证了算法朝着下降的方向搜索,但是,在搜索的过程中,就是运用共轭梯度的方法了。
对于一般函数而言,共轭梯度法的整体思路是不变的,只是对(1)(2)式的改动,对于(1)式可以通过牛顿法进行线性搜索得到当前状态下使得函数取最小的步长,对于(2)式,可以根据需求来变更迭代格式,比如常用的FR迭代格式和PRP迭代格式。
FR(Fletcher-Reeves)迭代格式(1964)
PRP(Polak,Ribiere and Polyar)(1969)