共轭梯度法(Conjugate gradient)详解

本文介绍了共轭向量的概念,如何通过共轭梯度法将线性方程组的求解转化为二次函数极小值问题。方法利用一阶导数信息,高效解决大型线性与非线性问题,尤其适合大型矩阵运算。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.什么是共轭向量

对于正定矩阵Q,如果有
xTQy=0x^TQy = 0xTQy=0
那么我们可以称x, y是关于Q-conjugate。

2.线性方程组求解与二次函数求极小值转化

最初,共轭梯度法是用来求解线性方程Ax=bAx = bAx=b的一种方法,特别是稀疏线性方程组迭代求解法里面最优秀的方法,其被称为线性共轭梯度法。后来,人们把这种方法慢慢推广到了非线性问题求解中,称为非线性共轭梯度法。

求解Ax=bAx = bAx=b时,最简单粗暴的方式为x=A−1bx = A^{-1}bx=A1b。但是这种方法的问题很明显:求逆矩阵的计算复杂度非常高。即使我们考虑用矩阵分解的方式,仍然会很慢。因此,我们尽可能考虑用迭代的方式,而不是直接求逆的方式来解这个问题。

如果构造一个二次函数:
f(x)=12xTAx−bTxf(x) = \frac{1}{2}x^TAx - b^Txf(x)=21xTAxbTx

对其求最小值,即令导数为零:
∇f(x)=Ax−bT=0\nabla f(x) = Ax - b^T = 0f(x)=AxbT=0

此时,正好是线性方程组Ax−b=0Ax - b = 0Axb=0的解。因此,我们可以将线性方程组求解问题转化为二次函数求极小值问题。

3.求解过程

根据第二部分推导,将求线性方程组解的问题转化为求二次函数极小值
f(x)=12xTQx−bTxf(x) = \frac{1}{2}x^TQx - b^Txf(x)=21xTQxbTx

结合第一部分,我们找到n个相互Q-conjugate的向量d1,d2,d3,⋯ ,dnd_1, d_2, d_3, \cdots, d_nd1,d2,d3,,dn,他们相互共轭且线性无关,则空间任意向量x可以用该组基向量表示:
x=∑i=1naidix = \sum_{i=1} ^n a_i d_ix=i=1naidi

上面的目标函数f(x)可以表示为如下
在这里插入图片描述
注意因为d是一组共轭向量,所以当i≠ji \neq ji=j时,有diTQdj=0d_i^TQd_j=0diTQdj=0

上面的公式可以变为
mina1,⋯ ,an∈Rn12∑i=1nai2diTQdi−∑i=1naibTdi\underset {a1,\cdots,a_n \in R^n}{min} \frac{1}{2} \sum_{i=1}^n a_i ^ 2 d_i ^TQd_i - \sum_{i=1}^na_ib^Td_ia1,,anRnmin21i=1nai2diTQdii=1naibTdi
进一步化简,
mina1,⋯ ,an∈Rn12∑i=1n(ai2diTQdi−aibTdi)\underset {a1,\cdots,a_n \in R^n}{min} \frac{1}{2} \sum_{i=1}^n (a_i ^ 2 d_i ^TQd_i - a_ib^Td_i)a1,,anRnmin21i=1n(ai2diTQdiaibTdi)

现在变量a1,a2,⋯ ,ana_1, a_2, \cdots, a_na1,a2,,an已经被分开了,将上面的式子再改写一下

mina1,⋯ ,an∈Rn12(a12d1TQd1−a1bTd1)+12(a22d2TQd2−a2bTd2)+⋯+12(an2dnTQdn−anbTdn)\underset {a1,\cdots,a_n \in R^n}{min} \frac{1}{2} (a_1 ^ 2 d_1 ^TQd_1 - a_1b^Td_1) + \frac{1}{2} (a_2 ^ 2 d_2 ^TQd_2 - a_2b^Td_2) + \cdots + \frac{1}{2} (a_n ^ 2 d_n ^TQd_n - a_nb^Td_n)a1,,anRnmin21(a12d1TQd1a1bTd1)+21(a22d2TQd2a2bTd2)++21(an2dnTQdnanbTdn)

这样,我们可以分别求每一项的最小值。比如第一项求最小值,直接求导即可:
a1d1TQd1−bTd1=0a_1 d_1^TQ d_1 - b^T d_1 = 0 a1d1TQd1bTd1=0
则可得:
a1=bTd1d1TQd1a_1 = \frac{b^T d_1}{d_1^TQ d_1}a1=d1TQd1bTd1

对于每一项,都有

ai=bTdidiTQdia_i = \frac{b^T d_i}{d_i^TQ d_i}ai=diTQdibTdi

所以最终的最优解为:
x∗=∑i=1naidix^* = \sum_{i=1}^n a_i d_ix=i=1naidi
即:
x∗=∑i=1nbTdidiTQdidix^* = \sum_{i=1}^n \frac{b^T d_i}{d_i^TQ d_i} d_ix=i=1ndiTQdibTdidi

4.共轭梯度法的精髓

回顾上述的推导过程来看,共轭梯度法就是把目标函数分成许多方向,然后不同方向分别求出极值在综合起来。

如果是二次优化问题,共轭梯度法理论上是可以保证最多n步一定找到最优解。

共轭梯度法仅利用了函数的一阶导数信息,但是克服了梯度下降收敛慢的缺点,同时又避免了牛顿法求二阶导计算量大的问题,不仅是解决大型线性方程组最有用的方法之一,也是解大型非线性最优化最有效的算法之一。当然,缺点就是前面我们提到的,是专门针对二次优化问题,其他场景不太适用。

评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值