优化问题中的梯度方法总结

在常见的优化问题的求解过程中,经常会碰到运用梯度的方法来求得极值点,对于梯度的理解,一开始还停留在本科高数中的简单知识点,这两天通过《Convex optimization》Chapter9的学习+网络资源增进了理解,整理下来。

常用梯度方法:梯度下降法、共轭梯度法(共轭方向法)、投影梯度法、牛顿法

无约束优化问题

这些梯度方法一般被运用于无约束优化问题最值得求解。

minf(x)s.t.xR

其中, f(x) 有一阶连续偏导数。

注:对于梯度的理解,一个曲面在某点处的梯度应该是该曲面的法向量,并且是该曲线增量最快的方向,而在该点处的偏导数应该是在该点处的一个切线

梯度下降法(Gradient Descent)

梯度下降法又叫最速下降法(Steepest Descent)

Algorithm:
1.初始点: x1Rn ,允许误差 ε>0 ,令 k=1
2.计算搜索方向 dk=f(xk) ;
3.若 dkε ,则停止计算, xk 为所求极值点;否则,求最优步长 λk ,使得 f(xk+λkdk)=minλf(xk+λdk)
4.令 xk+1=xk+λdk ,令 k:=k+1 ,转2。

在上述算法中,搜索方向总是当前迭代点的负梯度方向,即表示总是按照下降最快的方向搜索,方法的名字也就源于此。

共轭梯度法(Conjugate Gradient)

首先,要理解共轭方向。对于共轭方向,有如下定义:

设A是 n×n 对称正定矩阵,对于 Rn 中的两个非零向量 d1 d2
若有 d1TAd2=0 ,则称 d1 d2 关于A共轭。

注:如果A是单位矩阵,则

d1TId2=0d1Td2=0d1d2

表明共轭是正交的推广。

对于二次函数情形

minf(x)=12xTAx+bTx+c

其中 xRn ,A是对称 正定矩阵 bRn ,c是常数。

Algorithm
1.任取初始点 x1 ,精度要求 ε ,令 k=1
2.令 g1=f(x1) ,若 g1<ε ,停止, x1 为所求极小点;
否则,令 d1=g1 ,利用公式

λk=gTkdkdkTAdk(1)
计算 λ1 ,令 x2=x1+λ1d1
3.令 gk+1=f(xk+1) ,若 gk+1<ε ,停止, xk+1 为所求极小点;否则,令 dk+1=gk+1+βkdk ,其中 βk 用公式
βk=dkTAgk+1dkTAdk(2)
计算得到。令 k:=k+1
4.利用公式(1)计算 λk ,令 xk+1=xk+λkdk ,转3。

在上面的算法中,(1)式确定了步长,推导过程为:
要求解 minλf(xk+λdk) 。记 φ(λ)=f(xk+λdk) ,令 φ(λ)=f(xk+λdk)Tdk=0 ,即有

[A((xk)+λdk)+b]Tdk=0

gk=λf(xk)=Axk+b ,则有 [gk+λAdk]Tdk=0 ,化解得到(1)式。

(2)式用于求下一个搜索方向,如何确定 βk ?
迭代式: dk+1=gk+1+βkdk
要求 dk+1 dk 关于A共轭。则在上式两边同时左乘 dkTA ,得到

0=dkTAdk+1=dkTAgk+1+βkdkTAdk
化解得到(2)式。

在算法中,我们注意到第2步 d1 直接使用的是负梯度,这保证了算法朝着下降的方向搜索,但是,在搜索的过程中,就是运用共轭梯度的方法了。

对于一般函数而言,共轭梯度法的整体思路是不变的,只是对(1)(2)式的改动,对于(1)式可以通过牛顿法进行线性搜索得到当前状态下使得函数取最小的步长,对于(2)式,可以根据需求来变更迭代格式,比如常用的FR迭代格式和PRP迭代格式。
FR(Fletcher-Reeves)迭代格式(1964)

βi=gi+12gi2

PRP(Polak,Ribiere and Polyar)(1969)
βi=gTi+1(gi+1gi)gTigi

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值