【最优化】共轭梯度法

Patrick star`

于 2024-04-24 09:41:06 发布

阅读量470

点赞数 6

文章标签：算法

本文链接：https://blog.youkuaiyun.com/holle_world_ldx/article/details/138144406

版权

本文介绍共轭向量性质，指出关于对称正定矩阵共轭的向量组线性无关。阐述共轭方向法基本原理，通过共轭向量和移动步长获取最优值。讲解扩张子空间定理，说明子空间不断扩张。还介绍共轭梯度法及非二次型问题中的应用，指出其收敛速度特点及应对误差的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

共轭向量及其性质

A是 $\times n$ 的对称正定矩阵，对于方向 $d^{(0)},d^{(1)},d^{(2)}...d^{(m)}$ ，如果对于所有的 $\neq j$ ，有 $\boldsymbol{[d^{(i)}]^TAd^{(j)} = 0}$ ，则称它们是关于A是共轭的
假设A是 $\times n$ 的对称正定矩阵，向量组 $d^{(0)},d^{(1)},d^{(2)}...d^{(m)}$ 关于矩阵A共轭，则该向量组线性无关
$\begin{aligned} 证明：&如果d^{(0)},d^{(1)},d^{(2)}...d^{(m)}线性相关,\\ &则有\alpha_1 d^{(0)}+\alpha_2d^{(1)}+\alpha_3d^{(2)}+...+\alpha_md^{(m)} = 0 \\ &两边同乘[d^{(j)}]^TA,得\alpha_j[d^{(j)}]^Td^{(j)}=0,由于d^{(j)}\neq0,所以\alpha_j=0\\ &因此\ d^{(0)},d^{(1)},d^{(2)}...d^{(m)}线性无关 \end{aligned}$
假设A是 $\times n$ 的对称正定矩阵，关于矩阵A共轭的向量至多有个（A最多有n个基，所以最多只有n个线性无关的向量）

共轭方向法的基本原理

$\begin{aligned} &假设优化函数为 min f(x)=\frac{1}{2}x^THx+x^Tb+a\\ &f在\ x^{(k)}\ 出的梯度向量为\ g(x^{(k)}) = Hx^{(k)}+b(梯度就是广义一阶导)\\ &f在\ x^{(k)}\ 出的Hesse矩阵为 h(x^k) = H \end{aligned}$

如果向量 $d^{(0)},d^{(1)},d^{(2)}...d^{(n-1)}$ 关于H共轭，则这些向量线性无关，进而它们可以构成n维空间的一组基

$x^*$ 为最后找大的最优值, $x^*-x^{(0)}$ 任在n维空间内

$x^*-x^{(0)} = \sum_{i=0}^{n-1} \alpha^{(i)} d^{(i)}\ \Longrightarrow \ x^* =x^{(0)}+ \sum_{i=0}^{n-1} \alpha^{(i)} d^{(i)}$ 在这里插入图片描述
给定一个初始值 $x^{(0)}$ , 如果对于共轭向量 $d^{(0)},d^{(1)},d^{(2)}...d^{(n-1)}$ , 如果知道了每一步的移动步长 $\alpha^{(i)}$ ，便可以获取最优值 $x$
$x^*-x^{(0)} = \sum_{i=0}^{n-1} \alpha^{(i)} d^{(i)} \\ [d^{(k)}]^TH[x^*-x^{(0)}] = \sum_{i=0}^{n-1} [d^{(k)}]^TH\alpha^{(i)}d^{(i)}=\alpha^{(k)}[d^{(k)}]^THd^{(k)} \\ \alpha^{(k)}=\frac{[d^{(k)}]^TH[x^*-x^{(0)}]}{[d^{(k)}]^THd^{(k)}}$
$x^*$ 是需要求解的最小值，因此需要引入通用公式 $x^{(k)}=x{(0)}+\sum_{i=0}^{k-1}\alpha^{(i)}d^{(i)}$ 去掉 $x^*$
$x^{(k)}=x{(0)}+\sum_{i=0}^{k-1}\alpha^{(i)}d^{(i)} \\ [d^{(k)}]^TH[x^k-x^{(0)}] = \sum_{i=0}^{k-1} [d^{(k)}]^TH\alpha^{(i)}d^{(i)}=0 \\ [d^{(k)}]^TH[x^k] = [d^{(k)}]^TH[x^{(0)}]\\ \\ \alpha^{(k)}=\frac{[d^{(k)}]^TH[x^*-x^{(0)}]}{[d^{(k)}]^THd^{(k)}} \Longrightarrow \alpha^{(k)}=\frac{[d^{(k)}]^TH[x^*-x^{(\color{blue}k)}]}{[d^{(k)}]^THd^{(k)}}$
$\color{red} f在\ x^{(k)}\ 出的梯度向量为\ g(x^{(k)}) = Hx^{(k)}+b$

$\color{red}在\ x^{(k)}\ 出的Hesse矩阵为 h(x^k) = H$
$H[x^*-x^{(k)}] = [g(x^*) + b] - [g(x^k) + b] = g(x^*) - g(x^k) \\ \color{red} 由于极小值处的梯度为0，所以 g(x^*) = 0 \color{auto}\\ H[x^*-x^{(k)}]=-g(x^k)\\ \alpha^{(k)}=\frac{[d^{(k)}]^TH[x^*-x^{(k)}]}{[d^{(k)}]^THd^{(k)}} \Longrightarrow \alpha^{(k)}=-\frac{[d^{(k)}]^Tg(x^{(k)})}{[d^{(k)}]^THd^{(k)}}$

扩张子空间定理

$对所有的\ k \ 有\ g^{(k+1)}d^{(k)} = 0 \Longrightarrow f(x^{(k+1)})=\underset{\alpha}{min}f(x^{(k)}+\alpha d^{(k)}) \\ 对所有的\ k, \ 有\ g^{(k+1)}d^{(i)} = 0 \ ( 0\le k \le n-1 , 0 \le i \le k)\Longrightarrow f(x^{(k+1)})=\underset{\alpha^{(0)},...,\alpha^{(k)}}{min}f(x^{(0)}+\sum_{i=0}^{k} \alpha^{(i)} d^{(k)})$
也就是说，每一步的更新都会找到当前方向上的最小值
在这里插入图片描述
$f(x^{(k+1)})=\underset{\alpha^{(0)},...,\alpha^{(k)}}{min}f(x^{(0)}+\sum_{i=0}^{k} \alpha^{(i)} d^{(k)})\\ 记\ V_k = x^{(0)}+span[d^{(0)},d^{(1)},...,d^{(k)}] \\$
$f(k^{(k+1)}) = \underset{x \in V_k}{min}f(x)$ 随着 $k$ 的增大，子空间 $span[d^{(0)},d^{(1)},...,d^{(k)}]$ 不断“扩张”，直到充满整个 $R^n$ 。当 $k$ 足够大时， $x^*$ 将位于 $V_k$ 中，这便是扩张子空间定理

共轭梯度法

$min\ f(x)=\frac{1}{2}X^THx+x^Tb+a$

令 $k = 0$ ，选择初始值 $x^{(0)}$
计算 $g^{(0)}=\nabla f(x^{(0)})$ ，如果 $g^{(0)}=0$ ，停止迭代；否则令 $d^{(0)}=-g^{(0)}$
计算 $\alpha^{(k)}=-\frac{[d^{(k)}]^Tg(x^{(k)})}{[d^{(k)}]^THd^{(k)})}$
计算 $x^{(k+1)}=x^{(k)}+\alpha^{(k)}d^{(k)}$
计算 $g^{(k+1)}$ = $\nabla f(x^{(k+1)})$ ，如果 $g^{(k+1)}=0$ , 停止迭代
计算 $\beta^{(k)}=\frac{[g(x^{(k+1)})]^THd^{(k)}}{[d^{(k)}]^THd^{(k)}}$ (通过 $\beta$ 求取共轭方向)
计算 $d^{(k+1)}=-g^{(k+1)}+\beta^{(k)}d^{(k)}$
令 $k = k + 1$ ，回到第3步

非二次型问题中的共轭梯度法

在非二次型问题中Hess矩阵会不断变化，如何去除H？

令 $k = 0$ ，选择初始值 $x^{(0)}$
计算 $g^{(0)}=\nabla f(x^{(0)})$ ，如果 $g^{(0)}=0$ ，停止迭代；否则令 $d^{(0)}=-g^{(0)}$
计算 $\alpha^{(k)}=-\frac{[d^{(k)}]^Tg(x^{(k)})}{[d^{(k)}]^THd^{(k)})} \color{red} \Longrightarrow \ f(x^{(k+1)})=\ \underset{\alpha}{min}\ f(x^{(k)}+\alpha d^{(k)}) \Longrightarrow \alpha^{(k)}可以通过一维精度搜索获取$
计算 $x^{(k+1)}=x^{(k)}+\alpha^{(k)}d^{(k)}$
计算 $g^{(k+1)}$ = $\nabla f(x^{(k+1)})$ ，如果 $g^{(k+1)}=0$ , 停止迭代
计算 $\beta^{(k)}=\color{red} \frac{[g^{(k+1)}]^T[g^{(k+1)}]}{[g^{(k)}]^Tg^{(k)}}$
$\begin{aligned} &\beta^{(k)}=\frac{[g(x^{(k+1)})]^THd^{(k)}}{[d^{(k)}]^THd^{(k)}} \\ &x^{(k+1)} = x^{(k)}+\alpha^{(k)}d^{(k)} \Longrightarrow Hx^{(k+1)}-b = H(x^{(k)}+\alpha^{(k)}d^{(k)})-b \\ &g^{(k+1)}=g^{(k)}+\alpha^{(k)}Hd^{(k)} \Longrightarrow Hd^{(k)}=\frac{g^{(k+1)}-g^{(k)}}{\alpha^{(k)}} \Longrightarrow \color{red} \beta^{(k)} =\frac{[g(x^{(k+1)})]^T[g^{(k+1)}-g^{(k)}]}{[d^{(k)}]^T[g^{(k+1)}-g^{(k)}]} \\ &\color{auto} d^{(k)} = -g^{(k)}+\beta^{(k-1)}d^{(k-1)}\Longrightarrow [g^{(k)}]^Td^{(k)} = -[g^{(k)}]^Tg^{(k)}+\beta^{(k-1)}[g^{(k)}]^Td^{(k-1)} \\ &[g^{(k)}]^Td^{(k)} = -[g^{(k)}]^Tg^{(k)}\ (\color{blue}[g^{(k)}]^Td^{(k-1)}=0\color{black}) \Longrightarrow \color{red} \beta^{(k)} =\frac{[g(x^{(k+1)})]^T[g^{(k+1)}-g^{(k)}]}{[g^{(k)}]^Tg^{(k)}} \color{auto} \\ &d^{(k)} = -g^{(k)}+\beta^{(k-1)}d^{(k-1)}\Longrightarrow [g^{(k+1)}]^Td^{(k)} = -[g^{(k+1)}]^Tg^{(k)}+\beta^{(k-1)}[g^{(k+1)}]^Td^{(k-1)}\\ &-[g^{(k+1)}]^Tg^{(k)} = 0 \Longrightarrow \color{red} \beta^{(k)} =\frac{[g^{(k+1)}]^T[g^{(k+1)}]}{[g^{(k)}]^Tg^{(k)}}\\ \end{aligned}$
计算 $d^{(k+1)}=-g^{(k+1)}+\beta^{(k)}d^{(k)}$
令 $k = k + 1$ ，回到第3步