Hessian矩阵及局部极小点的条件

本文详细介绍了Hessian矩阵的概念及其在确定函数局部极小点中的应用。通过Hessian矩阵可以快速判断一个点是否为函数的严格局部极小点,并讨论了其二阶充分条件。同时,文中还探讨了凸函数的局部极小点与其全局极小点之间的关系。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一 Hessian矩阵
实值函数f(x)相对于n×1n×1实向量x的二阶偏导是一个由m2m2个二阶偏导组成的矩阵(称为Hessian矩阵),定义为:

2f(x)xxT=xT[f(x)x]∂2f(x)∂x∂xT=∂∂xT[∂f(x)∂x]

或者简写为梯度的梯度:
2xf(x)=x(xf(x))∇x2f(x)=∇x(∇xf(x))

根据定义,Hessian矩阵的第i行第j列是梯度f(x)xi=xif(x)∂f(x)∂xi=∇xif(x)第j个分量的梯度,即:
[2f(x)xxT]i,j=2f(x)xixj[∂2f(x)∂x∂xT]i,j=∂2f(x)∂xi∂xj
,
或者写做:
2f(x)xxT=2f(x)x1x12f(x)x2x12f(x)xnx12f(x)x1x22f(x)x2x22f(x)xnx22f(x)x1xn2f(x)x2xn2f(x)xnxn∂2f(x)∂x∂xT=[∂2f(x)∂x1∂x1∂2f(x)∂x1∂x2⋯∂2f(x)∂x1∂xn∂2f(x)∂x2∂x1∂2f(x)∂x2∂x2⋯∂2f(x)∂x2∂xn⋮⋮⋱⋮∂2f(x)∂xn∂x1∂2f(x)∂xn∂x2⋯∂2f(x)∂xn∂xn]

因此,Hessian矩阵可以用两步法求出来:
(1)求实值函数f(x)关于向量变元x的偏导数,得到实值函数的梯度f(x)x∂f(x)∂x;
(2)再求梯度f(x)x∂f(x)∂x相对于1×n1×n行向量xTxT的偏导数,得到梯度的梯度即Hessian矩阵。

二 局部极小点的条件
根据定义确定某个点xx∗是否为目标函数的局部极小点,需要将目标函数在该点的取值与函数在该点领域里所有点的取值进行比较。这显然是不实际的做法。然而,如果f(x)是二次连续可微分的话,直接通过检验梯度xf(x)∇xf(x∗)和Hessian矩阵2xf(x)∇x2f(x∗), 即可判断点xx∗是否为局部极小点(甚至是严格局部极小点)。
(Δx)TΔx(Δx)TΔx很小, 即函数f(x)的二阶Taylor级数展开为:

f(x+Δx)=f(x)+(Δx)Txf(x)+12(Δx)T2xf(x)Δxf(x+Δx)=f(x)+(Δx)T∇xf(x)+12(Δx)T∇x2f(x)Δx

关于判断一个局部极小点的一阶必要条件和一阶充分条件,请参考《矩阵分析与应用》270页(张贤达著),下面主要讲解其二阶充分条件:
定理:假设2xf(x)∇x2f(x)xx∗的开邻域内连续,并且
xf(x)=0, 2xf(x)>0∇xf(x∗)=0, ∇x2f(x∗)>0

xx∗是函数f(x)的严格局部极小点。式中2xf(x)>0∇x2f(x∗)>0表示Hessian矩阵2xf(x)∇x2f(x∗)正定。(具体即(Δx)T2xf(x)Δx>0(Δx)T∇x2f(x)Δx>0
证明:由函数f(x)的二阶Taylor级数展开f(x+Δx)=f(x)+(Δx)Txf(x)+12(Δx)T2xf(x)Δxf(x∗+Δx)=f(x∗)+(Δx)T∇xf(x∗)+12(Δx)T∇x2f(x∗)Δx,且xf(x)=0, (Δx)T2xf(x)Δx>0∇xf(x∗)=0, (Δx)T∇x2f(x∗)Δx>0可得:f(x+Δx)>f(x)f(x∗+Δx)>f(x∗),所以xx∗是函数f(x)的严格局部极小点。
应当注意的是,该二阶充分条件并不是必要条件:有的点xx∗可能是函数f(x)的严格局部极小点,但是在该点的Hessian矩阵却不是正定的。例如,观察知,点x=0x=0是函数f(x)=(xTx)2f(x)=(xTx)2的严格局部极小点,但是Hessian矩阵
2f(x)xxT=2xxT(xTx)2=12xTx∂2f(x)∂x∂xT=∂2∂x∂xT(xTx)2=12xTx

在严格局部极小点x=0x=0处为零矩阵,不是正定矩阵。

定理:凸函数f(x)的任何局部极小点xx∗都是该函数的一个全局极小点。
证明:假设xx∗是局部极小点,但不是一个全局极小点。于是,可以求出一点zRz∈R满足f(z)<f(x)f(z)<f(x∗).考虑从xx∗zz的线段上的点x,则

x=λz+(1λ)x,  λ(0,1]x=λz+(1−λ)x∗,  λ∈(0,1]

根据凸函数的性质,有
f(x)λf(z)+(1λ)f(x)<f(x)f(x)≤λf(z)+(1−λ)f(x∗)<f(x∗)
.
则当xx趋近于x时,有f(x)<f(x)f(x)<f(x∗),所以xx∗不是局部极小点,与假设矛盾。因此,局部极小点xx∗必定时一个全局极小点。

参考:《矩阵分析与应用》(张贤达著)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值