离散LQR：原理，求解与拓展

最新推荐文章于 2025-11-23 19:23:04 发布

原创最新推荐文章于 2025-11-23 19:23:04 发布 · 3.1w 阅读

96 ·

CC 4.0 BY-SA版权

文章标签：

#LQR-控制

控制理论专栏收录该内容

4 篇文章

订阅专栏

本文详细介绍了离散线性二次调节器（LQR）的基本原理，通过动态规划方法求解控制序列，并探讨了其在时变系统和跟踪命题中的拓展应用。核心内容包括二次代价函数的定义，动态规划解题步骤，以及LQR控制器的设计和优化过程。

该文档用以总结离散LQR的基本原理，反馈控制率的求解和一些拓展（时变系统，跟踪命题等）。主要参考的是Stanford的课程EE363: Linear Dynamical Systems的部分课件。

1 有限时域离散LQR的基本原理

这里我们首先考虑一个离散的线性系统：

x t + 1 = A x t + B u t, x 0 = x i n i t

$x_{t+1}=Ax_{t}+Bu_t, x_0 = x^{init}$
LQR的目标就在于，找到一组控制序列

u0,u1,... $u_0, u_1, ...$ 能够使得：

$x_0, x_1, ...$ 尽量小，即将状态调节到零点；
$u_0, u_1, ...$ 尽量小，即控制器付出较小的努力；

然而，这两个目标往往是冲突的，因为较大的控制作用 $u$ 能更快地将状态调节到零点。因此LQR就是根据需要设计出一组控制率来实现上面两个目标的权衡。

为此，我们定义如下的二次代价函数（quadratic cost function）：

J (U) = \sum τ = 0 N - 1 (x T τ Q x τ + u T τ R u τ) + x T N Q f x N

$J(U)= \sum_{\tau=0}^{N-1} {(x_{\tau}^TQx_{\tau}+ u_{\tau}^TRu_{\tau})} +x_N^{T}Q_fx_N$ 这里

U=(u0,u1,...,uN−1) $U=(u_0, u_1, ...,u_{N-1})$ ，且

Q = Q T \geq 0, Q f = Q T f \geq 0, R = R T > 0

$Q=Q^T \ge 0, \quad Q_f = Q_f^T\ge 0, \quad R=R^T \gt0$ 分别被称为 state cost, final state cost, input cost 矩阵。

代价函数中的三项分别用来衡量状态偏差，输入偏差以及最终状态偏差。 $Q$ 和 $R$ 用来确定状态和输入的相对权重。
因此，LQR的问题就是，找到一组序列： $u_0^{\text{lqr}}, ..., u_{N-1}^{\text{lqr}}$ 来最小化代价函数 $J(U)$ 。

通常 $Q$ 和 $R$ 的形式为：

R = ρ I, Q = Q f = C T C

$R=\rho I, \quad Q=Q_f=C^TC$ 这里

C∈Rp×n,ρ∈R,ρ>0 $C \in \mathbf R^{p\times n}, \quad \rho \in \mathbf R, \quad \rho \gt 0$ 。

于是，代价函数就可以变形为：

J (U) = \sum τ = 0 N ∥ y τ ∥ 2 + ρ \sum τ = 0 N - 1 ∥ u τ ∥ 2

$J(U)= \sum_{\tau=0}^N {\lVert y_{\tau} \rVert ^2}+ \rho \sum_{\tau=0}^{N-1} {\lVert u_{\tau} \rVert ^2}$ 这里

y=Cx $y=Cx$ ，

ρ√ $\sqrt{\rho}$ 在这里给出了输出和输入的相对权重。

2 基于动态规划（Dynamic Programming）的求解

LQR命题也可以通过最小二乘（least-squares）的方法求解，但这里我们只讨论基于动态规划的求解方法。
这里我们首先定义一个价值函数（value function） $V_t : \mathbf R^n \to \mathbf R$

V t (z) = min u t, . . ., u N - 1 \sum τ = t N - 1 (x T τ Q x τ + u T τ R u τ) + x T N Q f x N

$V_t(z) = \min_{u_t,...,u_{N-1}} \sum_{\tau=t}^{N-1}{(x_{\tau}^TQx_{\tau}+ u_{\tau}^TRu_{\tau})} +x_N^{T}Q_fx_N$ 满足约束

xt=z,xτ+1=Axτ+Buτ,τ=t,...,N−1 $x_t=z, x_{\tau+1}=Ax_{\tau}+Bu_{\tau}, \tau = t, ..., N-1$

即， $V_t(z)$ 给出的是从 $t$ 时刻的状态 $z$ 开始的LQR的代价函数。当 $t=0$ 时， $V_0(x_0)$ 就是原始的LQR代价函数。

我们可以证明 $V_t$ 是二次型，即 $V_t(z)=z^TP_tz$ ，其中 $P_t=P_t^T\ge0$ 。
首先，我们可以知道，当 $t=N$ 时有：

V N (z) = z T Q f z

$V_N(z) = z^TQ_fz$ 因此我们有

PN=Qf $P_N=Q_f$ 。

现在我们假设 $V_{t+1}(z)$ 已知，根据动态规划（DP）的原理，有：

V t (z) = min w (z T Q z + w T R w + V t + 1 (A z + B w))

$V_t(z) = \min_w (z^TQz+w^TRw+V_{t+1}(Az+Bw))$

$z^TQz+w^TRw$ 是从当前时刻的代价值
$V_{t+1}(A+Bwz)$ 是从下一时刻到 $N$ 时刻的代价值。

因此这就是一个典型的动态规划问题。

因为当前状态 $z$ 与优化命题无关，因此上面的优化命题也可以改写为：

V t (z) = z T Q z + min w (w T R w + V t + 1 (A z + B w))

$V_t(z) = z^TQz+\min_w (w^TRw+V_{t+1}(Az+Bw))$ 也就是说，当前时刻

t $t$ 的控制率

ut $u_t$ 取值应该如下：

u lqr t = arg min w (w T R w + V t + 1 (A z + B w))

$u_t^{\text {lqr}} =\arg \min_w (w^TRw+V_{t+1}(Az+Bw))$

假设 $V_{t+1}(z)=z^TP_{t+1}z, \quad P_{t+1}=P_{t+1}^T\ge0$ ，我们可以证明 $V_t$ 具有同样的形式。
将 $V_{t+1}(z)=z^TP_{t+1}z$ 代入上面 $V_t(z)$ 的表达式，即有：

V t (z) = z T Q z + min w (w T R w + (A z + B w) T P t + 1 (A z + B w))

$V_t(z) = z^TQz+ \min_w (w^TRw+(Az+Bw)^TP_{t+1}(Az+Bw))$
对于这样一个无约束的凸优化命题令其导数等于0即可以得到最优解。导数等于0得到的等式为：

2 w T R + 2 (A z + B w) T P t + 1 B = 0

$2w^TR+2(Az+Bw)^TP_{t+1}B =0$
因此，当前时刻的最优控制率为：

w * = - (R + B T P t + 1 B) - 1 B T P t + 1 A z

$w^* = -(R+B^TP_{t+1}B)^{-1}B^TP_{t+1}Az$

将上面的结果代入 $V_t(x)$ 的表达式，即

V t (z) = z T Q z + w * T R w * + (A z + B w *) T P t + 1 (A z + B w *) = z T (Q + A T P t + 1 A - A T P t + 1 B (R + B T P t + 1) - 1 B T P t + 1 A) z = z T P t z

$\begin{align} V_t(z) & = z^TQz+{w^*}^TRw^*+ (Az+B{w^*})^TP_{t+1}(Az+B{w^*}) \\ & = z^T(Q+A^TP_{t+1}A-A^TP_{t+1}B(R+B^TP_{t+1})^{-1}B^TP_{t+1}A)z \\ & = z^TP_tz \end{align}$
其中，

Pt=Q+ATPt+1A−ATPt+1B(R+BTPt+1)−1BTPt+1A $P_t=Q+A^TP_{t+1}A-A^TP_{t+1}B(R+B^TP_{t+1})^{-1}B^TP_{t+1}A$

容易证明 $P_{t}=P_{t}^T\ge0$

因此，LQR的求解过程可以总结如下：

set $P_N :=Q_f$
for $t=N,... , 1,$ $P t - 1 : = Q + A T P t A - A T P t B (R + B T P t) - 1 B T P t A$ $P_{t-1}:=Q+A^TP_{t}A-A^TP_{t}B(R+B^TP_{t})^{-1}B^TP_{t}A$
for $t=0,...,.N-1$ , define $K_t:=-(R+B^TP_{t+1}B)^{-1}B^TP_{t+1}A$
for $t=0,...,.N-1$ , $u_t^{\text{lqr}}=K_tx_t$

从上面的推导我们可以看出，LQR中，最优控制率是状态的线性反馈。

当 $t$ 远小于 $N$ 的时候，稳态的 $P_{ss}$ 可以近似收敛并满足下面的方程：

P s s = Q + A T P s s A - A T P s s B (R + B T P s s) - 1 B T P s s A

$P_{ss}=Q+A^TP_{ss}A-A^TP_{ss}B(R+B^TP_{ss})^{-1}B^TP_{ss}A$ 这个方程被称为代数黎卡提方程（algebraic Riccati equation, ARE）。
因此，当时刻

t $t$ 距时域终点

N $N$ 较远时，LQR的控制率可以近似看作状态

x $x$ 的常数反馈，即

u t = K s s x t, K s s = - (R + B T P s s B) - 1 B T P s s A

$u_t = K_{ss}x_t, \quad K_{ss}=-(R+B^TP_{ss}B)^{-1}B^TP_{ss}A$

3 一些拓展

针对时变系统

x t + 1 = A t x t + B t u t

$x_{t+1}=A_tx_{t}+B_tu_t$
我们可以定义对应的时变代价函数

J = \sum τ = 0 N - 1 (x T τ Q τ x τ + u T τ R τ u τ) + x T N Q f x N

$J= \sum_ {\tau=0}^{N-1} {(x_{\tau}^TQ_{\tau}x_{\tau}+ u_{\tau}^TR_{\tau}u_{\tau})} +x_N^{T}Q_fx_N$

可以看到，终点时刻的加权阵 $Q_f$ 并没有发生变化，因此前面根据DP推导得到的LQR的架构可以直接拓展到时变系统。显然，前面提到的稳态情况下的常值反馈在时变系统中将不复存在。

针对跟踪命题，代价函数可以写成

J = \sum τ = 0 N - 1 (x τ - x ¯ τ) T Q τ (x τ - x ¯ τ) + \sum τ = 0 N - 1 (u τ - u ¯ τ) T R τ (u τ - u ¯ τ)

$J= \sum_{\tau=0}^{N-1} {(x_{\tau}-\bar x_{\tau})^TQ_{\tau} (x_{\tau}-\bar x_{\tau})+ \sum_{\tau=0}^{N-1}(u_{\tau}-\bar u_{\tau})^TR_{\tau}(u_{\tau}-\bar u_{\tau})}$
（简要起见这里舍去了终端状态的代价）
其中，

x¯τ $\bar x_{\tau}$ 和

u¯τ $\bar u_{\tau}$ 分别是状态和输入要跟踪的轨迹。
通过一些附加的推导，前面DP推导的结果也可以运用在这样的跟踪命题中。

Ref.
Stanford, EE363: Linear Dynamical Systems

9 条评论

大强强小强强 2022.09.03
很多地方字母不见了？

南京夏天了 2022.06.09
你好，线性时变系统的具体公式能写一下吗

baidu_38335205 2020.02.21
写的很好了

Tonny__Yan 2017.11.18
写的很好

zhang_hz 2017.10.26
Pt=Q+ATPt+1A−ATPt+1B(R+BTPt+1B)−1BTPt+1A
- wiiliam_回复zhang_hz 2018.08.28
  [reply]zhang_hz[/reply] 是的，我觉得这个地方也不对

M4terLee 2017.06.14
2里面的代数里卡蒂方程写错了少写了一项
- tuibian19930611回复dymodi 2019.08.12
  [reply]dymodi[/reply] 少写了一个B。
- dymodi回复M4terLee 2017.06.21
  [reply]u012524127[/reply] 不好意思因为隔的时间太远，我现在也不做这方面的研究，所以不太确定这个问题。您要是觉得有漏写和写错的地方，希望您能够补充在评论里，方便后面的阅读者。