自动驾驶中MPC稳定性的实验验证

部署运行你感兴趣的模型镜像

自动驾驶中模型预测控制稳定性的实验验证

摘要

本文研究了一种在存在输入速率约束的情况下,保证闭环稳定性的时间变模型预测控制方法,用于自动驾驶汽车的控制设计。通过在控制器设计中引入终端状态约束和终端代价,并利用李雅普诺夫方法证明了系统的稳定性。终端集为车辆线性时变模型的多系统描述的最大正不变集,终端代价是应用线性二次型调节器控制律所产生的无限累积代价的上界。所提出的控制设计方法在实验中得到验证,并成功地在一个避障场景中稳定了一辆自动驾驶的斯堪尼亚工程卡车。

1. 引言

自动驾驶汽车不可避免地会面临紧急情况,例如需要剧烈机动以避免即将发生的碰撞。道路交通伤害中94%是由人为错误引起的(欧盟委员会,2011),预计到2020年将成为致残的第三大常见原因(世界卫生组织,2009)。因此,在开发商用自动驾驶汽车时,当从系统中去除人为因素后,确保车辆在安全关键事件期间的车辆稳定性至关重要。验证的稳定性是实现安全可靠自动驾驶汽车的关键方面。

自动驾驶之路正随着高级驾驶辅助系统(例如防抱死制动系统、电子稳定控制系统、自适应巡航控制、车道偏离预警系统和自动泊车)的逐步引入而缓慢铺就。这些系统在危险和繁琐的情况下为驾驶员提供了重要的支持,减少了交通事故和死亡人数(Ross,2014)。特别是当驾驶员发出的转向指令导致车辆运动不稳定时,电子稳定控制系统(ESC)会进行干预。然而,自动驾驶汽车的运动控制模块设计必须实现稳定行为,而不能依赖驾驶辅助技术来避免潜在的不稳定行为。本研究针对自动驾驶运动控制器的设计问题展开以确保闭环稳定性。具体而言,本文研究了模型预测控制(MPC)在实际应用中的闭环稳定性问题。结果表明,若未对终端代价和终端状态集进行适当设计,标准MPC可能导致不稳定性,尤其是在预测时域较短的情况下。一方面,确保车辆稳定性有助于在开发阶段推进控制器认证和标准化;另一方面,缩短预测时域可为更多计算密集型模块腾出资源。

在DARPA挑战赛中首次尝试展示自动驾驶时,重点在于构建可行的系统架构,而非测试车辆的稳定性极限(Thrun, Montemerlo,Dahlkamp, Stavens, Aron, Diebel, et al.,2006;Urmson, Bagnell,Baker,Hebert, Kelly, Rajkumar, et al.,2007)。即使是近期的车辆开发,也通常假设车辆运行远低于操控极限,很少或几乎没有关注可能的车辆不稳定性情况(Mchugh,2015;Ziegler,0000;Ziegler, Bender, Schreiber, Lategahn,Strauss,Stiller, et al.,2014)。

运动控制器是自动驾驶汽车设计中的一个关键模块,因为它负责将车辆稳定并引导至给定的参考路径。在最近几十年中,模型预测控制(MPC)因其能够处理非线性时变模型和约束而受到越来越多的关注。利用模型预测系统行为,最小化用户定义的代价函数,并计算最优输入序列,以在已知的状态和输入约束下跟踪指定路径或轨迹。最优输入序列的一个子集被施加到车辆上,然后重复该过程(Bemporad, 2006;Garcia, Prett,& Morari, 1989;Mayne, Rawlings, Rao,& Scokaert, 2000)。MPC的一个优势是能够显式地引入额外的约束和代价项,从而实现闭环稳定性保证。确保使用MPC实现闭环稳定性的一种最流行策略(参见Mayneet al.,2000及其中的参考文献)是将优化值函数用作Lyapunov函数。此外,若在最优控制问题中同时引入终端代价和终端状态集,则分析将更加方便。选择终端代价使其在原点(即终端状态集)的某个合适邻域内等于无限时域值函数。因此,可以利用无限时域控制的已知优点,例如保证稳定性(Keerthi& Gilbert, 1988)。

使用模型预测控制(MPC)时的闭环稳定性特性已从理论角度进行了广泛研究(参见梅恩等人,2000及其中的参考文献)。然而,许多所提出的控制设计缺乏可实现性,导致实际分析在文献中较少出现。当考虑实验评估时,绝大多数研究要么忽略稳定性问题(Thrun et al., 2006;Urmson et al., 2007),要么车辆表现稳定是由于控制器的仔细调参(Lima, Trincavelli, Mårtensson, Nilsson, and Wahlberg, 2017;Liniger, Domahidi, & Morari, 2015;Turri, Carvalho, Tseng, Johansson, & Borrelli, 2013),或由于引入了车辆动力学约束(Beal & Gerdes, 2013;Falcone, Borrelli, Asgari, Tseng, & Hrovat, 2007;Falcone, Borrelli, Tseng, Asgari, & Hrovat, 2008a;Funke, Brown, Erlien, & Gerdes, 2017;Katriniok, Maschuw, Christen, Eckstein, & Abel, 2013)。所展示的场景涵盖车道保持和避障(Funke et al., 2017;Turri et al., 2013),以及赛车应用(Beal & Gerdes, 2013;Liniger et al., 2015)。此外,这些实验通常考虑低附着路面(Falcone et al., 2007;Turri et al., 2013)或车辆操控极限(Funke et al., 2017;Katriniok et al., 2013)。

稳定性通过限制轮胎侧滑角的约束来保证,从而将车辆运动限制在状态空间中不包含不稳定车辆动力学的区域内。所有这些方案的共同点是在模型预测控制公式中缺乏显式稳定性施加约束。一个例外是(Falcone, Borrelli, Tseng, Asgari, & Hrovat, 2008b),其中为用于主动前轮转向系统的线性时变模型预测控制提出了一种稳定性条件。为了确保稳定性,额外计算了一个凸约束,用于限制控制effort和预测状态的二次函数。然而,这要求将MPC表述为序列二次规划(SQP),其通常比二次规划(QP)具有更高的计算负担。此外,还进行了若干简化,例如通过在当前工作点附近线性化来假设模型时不变性,并假设终端状态集为单点集。尽管这降低了整体设计的复杂性,但也影响了控制器的可行性区域。

1.1. 主要贡献

本文的主要贡献如下:
1. 线性时变模型预测控制器(LTV‐MPC)闭环稳定性的终端代价和终端状态集的离线计算;
2. 使用新型终端代价和终端状态集证明LTV‐MPC闭环稳定性;
3. 在自动驾驶案例中,对MPC参数调优对终端代价和终端状态集设计影响的解释;
4. 所提出的控制设计在仿真和实验上对自主斯堪尼亚工程卡车的有效性。

本文所呈现的工作是Lima、Mårtensson和Wahlberg(2017)的扩展,其中证明了在使用时变线性MPC对自动驾驶卡车进行横向控制时的闭环稳定性。该研究中,非线性运动学车辆模型围绕参考路径进行线性化,得到一个时变线性模型。车辆建模在空间域内,并采用相对于参考路径的道路对齐坐标系,以从动态方程中排除时间和速度的影响(Frasch、Gray、Zanon、Ferreau、Sager、Borrelli等人,2013;Gao、Gray、Frasch、Lin、Tseng、Hedrick等人,2012;Lima、Oliveira、Mårtensson、Bemporad和Wahlberg,2017;Plessen、Lima、Mårtensson、Bemporad和Wahlberg,2017;Verschueren、De Bruyne、Zanon、Frasch和Diehl,2014)。该研究采用了多系统描述的概念(Badgwell和Thomas,1997;Kothare、Balakrishnan和Morari,1996),即将时变线性模型划分为多个线性时不变(LTI)模型。此外,提出将多系统描述中所有LTI模型的最大正不变集作为终端状态集。终端代价通过求解一个凸极小极大优化问题(Lu和Arkun,2000)来计算,从而确定若用作预测模型时最不利的时不变模型。

在本研究中,再次使用了多系统描述和基于空间的道路对齐车辆模型的概念。除了Lima和Mårtensson等人(2017)之外,本研究
1. 提出了一种计算终端代价的新方法;
2. 提出了考虑输入速率约束的终端代价和终端状态集;
3. 展示了所提出控制设计的实验评估。

本文提出将终端代价设计为对多模型表示中任意可能模型应用线性二次型调节器(LQR)控制律所产生的剩余代价的上界。通过正向缩放由剩余代价计算得到的黎卡提矩阵之一,可以获得该上界,其中考虑了车辆模型位于凸不确定性多面体内部的情况。此外,引入输入速率约束会为终端状态集和权重矩阵各增加一个额外维度。这一额外维度即为输入,其在确保车辆稳定性方面起着关键作用。基于所提出的代价函数与状态集设计,理论上证明了所提出的LTV‐MPC方案的稳定性和可行性。

本文还从自动驾驶的角度讨论了模型预测控制参数调优的影响。所提出的模型预测控制设计的有效性在一个类似紧急操作的场景中,通过仿真以及使用Scania工程卡车进行的实际实验进行了验证,其中车辆避开了一个虚拟障碍物。即使在其他控制器(无终端代价或终端代价及终端状态集较弱)无法实现稳定的情况下,该控制器仍成功实现了对自主Scania工程卡车的稳定控制。

本文提出的方法在开发时考虑了其实际应用性。因此,在控制设计中引入终端代价和终端状态集不应影响执行时间或优化凸性。然而,离线计算的解可能是保守的,因为它们需要预先覆盖更大范围的场景,而不是在线计算出更少保守的终端代价和终端状态集。

1.2. 概述

本文其余部分组织如下。第2节介绍理论预备知识;第3节通过构建LTV‐MPC控制器,研究在滚动时域框架下进行参考跟踪的问题;第4节介绍了自动驾驶示例中在道路对齐坐标系下使用的非线性空间车辆模型。此外,该节还提出了用于证明第5节讨论LTV‐MPC可行性与闭环稳定性;第6节通过仿真和实验验证了在MPC设计中引入终端代价和终端状态集的有效性。第7节给出了结论并展望了未来的工作。

2. 预备知识

本节介绍了全文中使用的主要概念。其结构和符号遵循Borrelli, Bemporad,and Morari(2017)的体系。

本文研究受外部输入影响的离散时间非线性系统:
$$ z(k+ 1)= f(z(k), u(k)), $$
其中$ z(k) ∈ R^n $和$ u(k) ∈ R^m $分别是状态和输入向量。两个系统都受到状态和输入约束。
$$ z(k) ∈ \mathcal{Z}, u(k) ∈ \mathcal{U},∀k ∈ N^+, $$
其中集合$ \mathcal{Z} ⊆ R^n $和$ \mathcal{U} ⊆ R^m $为多面体。

当系统$(1)$受到反馈控制律$ u(k)=l(k)z(k)$的约束,其中$ l(k)$是时变反馈控制增益时,离散时间自治系统变为
$$ z(k+ 1)= f_a(z(k))= f(z(k), l(k)). $$

定义1(一步可控集) 。对于系统$(1)$,关于集合$ \mathcal{S}$的一步可控集定义为
$$ Pre(\mathcal{S})={z ∈ R^n ∶∃u ∈ \mathcal{U}, f(z, u) ∈ \mathcal{S}}. $$
$Pre(\mathcal{S}) $是指在一步时间内演化进入目标集合$ \mathcal{S} $的状态集合。

定义2(N步可控集) 。对于给定的目标集合$ \mathcal{S} ⊆ \mathcal{Z}$,在约束条件$(2)$下,系统$(1)$的$N$步可控集$ \mathcal{K} N(\mathcal{S})$递归定义为
$$ \mathcal{K}_j(\mathcal{S})= Pre(\mathcal{K}
{j−1}(\mathcal{S}))∩\mathcal{Z}, \mathcal{K}_0(\mathcal{S})= \mathcal{S}, j={1,....,N}. $$
系统$(3)$中属于$ N$步可控集$\mathcal{K}_N(\mathcal{S})$的所有状态均能在$ N$步内演化至目标集合$ \mathcal{S}$,同时满足约束条件。

定义3(正不变集) .集合$ \mathcal{C} ⊆ \mathcal{Z}$被称为系统$(3)$在$(2)$的约束下的正不变集,如果
$$ z(0) ∈ \mathcal{C} ⇒ z(k) ∈ \mathcal{C},∀k ∈ N^+. $$
对于给定的反馈控制器$ u(k)= l(k)z(k)$,$ \mathcal{C} $是指那些轨迹永远不会违反系统约束的初始状态的集合。

定义4(最大正不变集) .集合$ \mathcal{C} ∞ ⊆ \mathcal{Z}$是自治系统(3)在(2)的约束下的最大正不变集,如果$ \mathcal{C} ∞$是不变集,并且包含所有包含于$ \mathcal{Z}$中的不变集。

定理2.1(不变性的几何条件) .一个集合$ \mathcal{C} ⊆ \mathcal{Z}$是自治系统$(3)$在$(2)$的约束下的正不变集,当且仅当
$$ \mathcal{C} ⊆ Pre(\mathcal{C}), $$
证明见Borrelliet al.(2017)。

换句话说,如果系统$(3)$位于$ \mathcal{C}$内,则在满足约束$(2)$的条件下,它将始终保持在其中。

3. 线性时变模型预测控制

考虑控制离散时间非线性时变系统的问题$(1)$并满足约束$(2)$以跟踪给定的时变参考轨迹。设参考状态为 $z_r(k) ∈ \mathcal{Z}$,输入为 $u_r(k) ∈\mathcal{U}$。令 $\bar{Z} r(k)={z_r(k), z_r(k+ 1),…}$表示通过在 $k ≥ 0$时间内对系统(1)施加输入序列 $\bar{U}_r(k)={u_r(k), u_r(k+ 1),…}$所得到的参考状态路径。然后,在 $\bar{Z}_r(k)$和 $\bar{U}_r(k)$附近对系统(1)进行一阶泰勒近似和前向欧拉离散化,可得到一个线性时变(或线性空间变)系统,其形式如下
$$ \tilde{z}(k+ 1)= A(\xi(k))\tilde{z}(k)+ B(\xi(k))\tilde{u}(k), $$
其中$ \tilde{z}(k)= z(k) −z_r(k) $和$ \tilde{u}(k)= u(k) −u_r(k) $以及
$$ A(\xi(k))= \frac{\partial f(z, u)}{\partial z} \bigg|
{z= z_r(k), u= u_r(k)}, B(\xi(k))= \frac{\partial f(z, u)}{\partial u} \bigg| {z= z_r(k), u= u_r(k)}, $$
其中$ \xi(k) $是形式为$ \xi(k)=[z_r(k), u_r(k)]^T $的参数向量,在每一步$ k$都已知。此外,对于每个$ k$, $\xi(k) ∈ \Xi$,其中$ \Xi $是一个闭集,包含所有可能的$ \xi $值。
$$ \Xi={\xi ∈ R^{n+m} ∶\xi
{min} ≤ \xi ≤ \xi_{max}}, $$
其中不等式运算按元素进行。时变线性系统(LTV)(7)是非线性系统 (1)的一阶近似。它描述了当将输入序列 $\bar{U}_r(k)$应用于系统时,相对于参考路径 $\bar{Z}_r(k)$的偏差。

设 $γ ∈ \Gamma$表示由特定对$(A(\xi),B(\xi))$描述的模型,其中集合 $\Gamma$是定义的多系统描述
$$ \Gamma={(A,B) ∈ R^{n×n} × R^{n×m} ∶A= A(\xi),B= B(\xi), \xi ∈ \Xi}. $$
注意,每个$ γ ∈ \Gamma $都是时不变的,并且依赖于一个(已知的)参数$ \xi$。

假设在当前时刻$ t$可获得状态$ z(t) $的完整测量或估计值。然后,可以建立以下模型预测控制问题
$$ \min_{\tilde{U} t} \tilde{z} {t+N|t}^T Q_f \tilde{z} {t+N|t} + \sum {k=t}^{t+N−1} \tilde{z} {k|t}^T Q\tilde{z} {k|t} + \tilde{u} {k|t}^T R\tilde{u} {k|t} \tag{11a} $$
subject to
$$ \tilde{z} {k+1|t} = A(\xi(k|t))\tilde{z} {k|t} + B(\xi(k|t))\tilde{u} {k|t} , k= t,…, t+ N −1 \tag{11b} $$
$$ \tilde{z}
{k|t} ∈ \tilde{\mathcal{Z}}, k= t,…, t+ N −1, \tag{11c} $$
$$ u_{k|t} ∈ \mathcal{U}, k= t,…, t+ N −1, \tag{11d} $$
$$ \tilde{z} {t+N|t} ∈ \tilde{\mathcal{Z}}_f, \tag{11e} $$
$$ \tilde{z}
{t | t}= \tilde{z}(t), \tag{11f} $$
其中, $\tilde{U} t={\tilde{u} {t | t},…,\tilde{u} {t+N − 1 | t}}$是待优化的输入序列,且被约束在凸多面体$ \mathcal{U}$内。在时刻$ t $预测的时刻$ t+ k $的状态向量与参考轨迹向量$z_r(t+k) $之间的差值定义为$ \tilde{z} {t+k | t}$。预测状态与参考状态之间的差值被约束在凸多面体$ \tilde{\mathcal{Z}}$内。此处,符号$z_{t+k | t} $表示“在时刻$ t$预测的时刻$ z $的状态$ t+ k$”。对于$u_{t+k | t}$,其符号含义类似。注意, $z(t) $即为时刻$ t$的实际状态$ z$。矩阵$ R$、 $Q$和$ Q_f $均为正定矩阵,分别用于惩罚偏离参考输入、状态和终端状态的程度。

备注 。假设在当前时刻可获得状态的完整测量或估计值$z(t)$是可用的 $t$。然而,在实际应用中并非总是如此,因为在实际系统中时间延迟几乎是不可避免的。事实上,部署该控制器的车辆存在时间延迟(Lima和Trincavelli等人,2017)。在我们的控制器设计中,系统中存在的延迟并未被显式考虑。

尽管如此,为了处理这一问题,会估计延迟后的车辆状态并将其用作当前状态 $z(t)$。未来的工作包括设计明确考虑系统中可能存在的延迟的模型预测控制(Ai,Sentis,Paine, Han, Mok,& Fok,2016)。

设$ \tilde{U}^\star_t={\tilde{u}^\star_{t|t} ,…, \tilde{u}^\star_{t+N−1|t}} $为$(11)$在时刻$t$的最优解。将$ \tilde{U}^\star_t$的第一个元素应用于系统$(7)$在时刻$ t$。在下一个采样时间,使用新的状态测量值重新求解最优控制问题$(11)$,并将时域向前移动。这种方法也称为滚动时域控制。

在滚动时域控制中,优化问题可能导致我们陷入不可行情况(即不存在满足约束的控制输入序列)。此外,即使优化问题始终可行,所计算出的最优控制输入也可能无法实现渐近稳定闭环系统。通常情况下, (11)中无法保证可行性与闭环稳定性。

本研究探讨了如何选择终端权重$ Q_f$和终端约束集$ \tilde{\mathcal{Z}}_f$,以确保对所有$ γ ∈ \Gamma$均能保证闭环稳定性与可行性。关于如何选择终端权重$ Q_f$和终端约束集$ \tilde{\mathcal{Z}}_f$以确保闭环稳定性与可行性的条件,在过去三十年中已被广泛研究(Mayneet al.,2000)。其主要思想是找到一个反馈控制律$ l(k)$,使其在不变的终端区域$ \tilde{\mathcal{Z}}_f$内稳定无约束系统$(7)$。然后,如果代价函数(11a)考虑了无限时域成本,则闭环是稳定的。有限时域代价(当控制器受约束时)被添加到无限时域成本中(当控制器无约束时,即当系统进入$ \tilde{\mathcal{Z}}_f$时)。对于无约束线性系统,收敛到原点的过程是指数收敛(Borrelli et al.,2017)。

4. 自动驾驶的模型预测控制设计

本节将第3节提出的通用框架具体应用于自动驾驶应用。

4.1. 基于空间的车辆模型

示意图0

图1描述了全局坐标系与道路对齐坐标系之间的关系。基于空间的车辆模型的推导过程遵循Gao等(2012)的方法。其主要思想是引入变量$s$表示沿参考轨迹的距离,并对横向$e_y$以及车辆与道路之间的航向位移$e_\psi$作为空间 $s$的函数。

让我们首先定义车辆模型的时域。在低速情况下(即横向动力学影响可忽略时),类汽车非完整约束车辆的运动可通过其时域运动学方程近似描述(De Luca, Oriolo,&Samson,1998)如下:
$$ \dot{x}= \frac{dx}{dt}= v \cos(\psi), \dot{y}= \frac{dy}{dt}= v \sin(\psi), \dot{\psi}= \frac{d\psi}{dt}= \frac{v}{d} \tan(\delta), $$
其中, $x$和 $y$是车辆在全局坐标系中的坐标, $\psi$是偏航角, $d$是前后轴间距, $v$是车辆坐标系中的纵向速度,$\delta$是前轮的转向角。车辆曲率 $\kappa$与车辆转向角 $\delta$通过 $\kappa= \frac{\tan(\delta)}{d}$相关联。

根据图1,几何关系为
$$ \dot{e} y= v \sin(e \psi), \dot{e} \psi= \dot{\psi} − \dot{\psi}_s, \dot{s}= \frac{\rho_s v \cos(e \psi)}{\rho_s −e_y}, $$
其中 $\rho_s$是道路的曲率半径, $\psi_s$是道路航向角。

假设$ v ≠ 0$且其为连续函数,并注意到空间导数可表示为时间导数的函数,即$ \frac{d(⋅)}{ds}= \frac{d(⋅)}{dt} \frac{dt}{ds}= \frac{d(⋅)}{dt} \frac{1}{\dot{s}}$,则基于空间的表示(12)可由此推导为
$$ e’ y= \frac{\dot{e}_y}{\dot{s}}= \frac{\rho_s −e_y}{\rho_s} \tan(e \psi), e’ \psi= \frac{\dot{e} \psi}{\dot{s}}=\frac{(\rho_s −e_y)}{\rho_s \cos(e_\psi)} \kappa −\psi’ s. $$
非线性模型$(14)$在参考路径$ z_r(k)=[e
{y,r}(k), e_{\psi,r}(k)]^T=[0, 0]^T$周围针对所有$ k ≥ 0$由输入的参考序列$ \bar{U} r(k)$给出的情况进行线性化与离散化(其中$ \Delta s=vT_s$, $T_s$为采样周期, $v$为当前车速,并在预测时域内保持恒定),从而得到形式为(7)的时变线性模型
$$ \begin{bmatrix} e_y(k+ 1) \ e
\psi(k+ 1) \end{bmatrix} = \begin{bmatrix} 1 & \Delta s \ -\kappa^2_r(k)\Delta s & 1 \end{bmatrix} \begin{bmatrix} e_y(k) \ e_\psi(k) \end{bmatrix} + \begin{bmatrix} \Delta s \ 0 \end{bmatrix} \tilde{\kappa}(k), $$
其中假设参考输入曲率为 $\kappa_r= \kappa_s= \frac{1}{\rho_s}$。在本特定情况下,参数 $\xi(k)$仅取决于道路曲率 $\kappa_r(k)$。实际上, $\Delta s$也可被视为一个参数,但在分析中将其设为常数(即车辆以恒定速度行驶)。因此,在本文其余部分以及为了符号简洁性起见, $\xi(k)= \kappa_r(k)$。

总之,使用线性化且离散化的基于空间的运动学车辆模型(15),通过MPC公式化方法(11)控制非完整约束车辆跟踪给定参考轨迹。状态向量为$\tilde{z}(k)=[e_y(k), e_\psi(k)]^T$,输入为$\tilde{u}(k)= \tilde{\kappa}(k)= \kappa(k) − \kappa_r(k)$。因此,预先知道参考曲率 $\kappa_s(k)$ apriori,可定义集合 $\xi$,其中$\xi_{min}= \kappa_{r,min}$和$\xi_{max} = \kappa_{r,max}$。将MPC预测时域的终端状态约束在终端约束集 $\tilde{\mathcal{Z}}_f$内,并适当地选择 $Q_f$,可确保所有 $γ ∈ \Gamma$情况下的闭环稳定性与可行性。

4.2. 终端约束$ \tilde{\mathcal{Z}}_f $的计算

当模型为线性时不变时,$ \tilde{\mathcal{Z}} f $的一个典型选择是闭环系统的最大正不变集$ \mathcal{C} {LQR}^\infty$
$$ \tilde{z}(k+ 1) =(A(\xi(k)) + B(\xi(k))l_{LQR}(\xi(k))) \tilde{z}(k) , $$
其中 $l_{LQR}$是相关的LQR增益(即无约束无限时间最优控制器增益)。

然而,由于我们的模型是时变线性系统(LTV),存在多个最大正不变集 $\mathcal{C} {LQR}^\infty(\gamma)$以及多个不同的LQR反馈控制器$l {LQR}(\xi)$,每个 $\xi ∈ \Xi$对应一个。因此,需要寻找对所有 $\bar{\mathcal{C}} {LQR}^\infty$均保持不变的最大正不变集$γ ∈ \Gamma$(即$ \bar{\mathcal{C}} {LQR}^\infty ⊆Pre_\gamma(\bar{\mathcal{C}} {LQR}^\infty)$, $∀γ ∈ \Gamma$)。符号 $Pre \gamma(⋅)$表示使用特定模型 $γ$的一步可控集(见定义1)。

回顾在定理2.1中表述的不变性的几何条件,并设 $\Gamma_d$是具有有限个线性时不变模型的多系统 $\Gamma$的离散化版本。那么,以下递推
$$ \Omega_{k+1}= \bigcap_{\gamma∈\Gamma_d} Pre_\gamma(\Omega_k) ∩\Omega_k, \Omega_0= \tilde{\mathcal{Z}}, $$
最终收敛到最大正不变集(见定义4)(Kolmanovsky& Gilbert, 1998),即
$$ \bar{\mathcal{C}} {LQR}^\infty= \lim {k→∞} \Omega_k. $$
注意,模型 $A(\xi(k))$的矩阵(15)可以描述为属于一个凸不确定性多面体
$$ \Lambda={A ∈ R^{2×2} ∶A= \sum_{i=1}^2 \lambda_iA_i, \sum_{i=1}^2 \lambda_i= 1, \lambda_i ≥ 0}. $$
因此,可以证明,仅使用不确定性多面体的顶点即可构造一个多面体鲁棒不变集(即关于时变参数具有鲁棒性)(Blanchini, 1999;Pluymers, Rossiter, Suykens,&De Moor, 2005)。换句话说,如果$\Gamma_d$至少包含 $A(\xi(k))$的顶点,则(17)计算 $\Gamma$的最大不变集。

所有集合运算均使用MATLAB的多参数工具箱(MPT) Kvasnica,Grieder, Baotić,& Morari,2004)进行。

无输入速率约束下的$\bar{\mathcal{C}}_{LQR}^\infty$的计算

示意图1

图2(左图)展示了模型$ \bar{\mathcal{C}} {LQR}^\infty $的(15)中不变集的计算示例,其中输入在−0.18和0.18 m−1之外饱和,这些值是实验评估中后续考虑的工程卡车的曲率限制。所使用的车辆和调节参数为$|\kappa_r| ≤ 0.18m^{-1}$, $Q= I$, $R= 1$以及 $\Delta s= 1 m$。该图还显示了不同$ \mathcal{C} {LQR}^\infty $下的若干 $\kappa_r$。

计算得到的集合具有直观的几何解释:当车辆位于路径左侧(正$e_y$)时,航向偏差$e_\psi$趋于负,从而使车辆趋向于指向路径内侧,反之亦然。对于模型(15),平均而言,每个LTI不变集的计算耗时约为0.2秒,而LTV不变集的计算耗时约为1秒。

由于$ \bar{\mathcal{C}} {LQR}^\infty $是凸多面体集,约束条件(11e)可表示为
$$ H\tilde{z}
{t+N | t} ≤ h, $$
其中$ H ∈ R^{2×h_n} $和$ h ∈ R^{h_n}$,其中$ h_n $表示定义该集合的平面数量。

在输入速率约束下计算$ \bar{\mathcal{C}}_{LQR}^\infty $

当考虑输入速率约束时,LTI不变集$ \mathcal{C} {LQR}^\infty $和LTV不变集$ \bar{\mathcal{C}} {LQR}^\infty $也依赖于输入曲率 $\kappa$(见图2右侧图像)。输入速率在0.05和−0.05 m−1/s之外饱和,所使用的车辆和调参参数与之前相同。同样,如果车辆位于路径的左侧(正$e_y$),则航向偏差$e_\psi$倾向于为负,而曲率$\kappa$倾向于为正,从而使车辆始终向路径弯曲,反之亦然。对于模型(15),平均而言,每个LTI不变集的计算时间约为0.3秒,LTV不变集的计算时间为1.5秒。因此,不变集的计算时间似乎与所使用的状态数成线性比例关系。

在这种情况下,$ \bar{\mathcal{C}} {LQR}^\infty$也是一个凸集,但多了一个维度。因此,约束条件(11e)可以写成
$$ H\tilde{z}
{t+N|t}+ G\tilde{u}_{t+N−1|t} ≤ h, $$
其中 $H ∈ R^{2×h_n}$、 $G ∈ R^{1×h_n}$和 $h ∈ R^{h_n}$,其中 $h_n$表示定义该集合的超平面数量。

惩罚矩阵 $Q$和$ R$的影响

本节讨论了在有无输入速率约束的情况下,惩罚矩阵$Q$和$ R$对$\bar{\mathcal{C}}_{LQR}^\infty$计算的影响。

示意图2

图3展示了$ R$和$ Q$对$ \bar{\mathcal{C}} {LQR}^\infty$形状的影响。对参考输入的偏差(反映在$ R$中)惩罚越大,LTV不变集$ \bar{\mathcal{C}} {LQR}^\infty$就越大。较大的终端集是期望的,因为可以确保稳定性的可行性区域更大。在任何情况下,当车辆距离参考轨迹过远时,无需确保稳定性。偏离参考轨迹的代价越高(即增大 $Q_{11}$, $Q$的第一个对角元素),不变集就越小。这是预料之中的,因为在如果对横向偏差施加高惩罚,控制器将变得过于激进,导致不变集更小,进而吸引域也更小,这可能会引起不可行性问题。最后,航向偏差惩罚(即 $Q_{22}$,$Q$的第二个对角元素)的影响体现在更大的$e_y$覆盖区域和更小的$e_\psi$覆盖区域。其解释在于,如果航向偏差代价较高,则不变集会避免包含较大的$e_\psi$。状态惩罚矩阵$ Q$的调节对LTV不变集曲率范围影响不大,而输入惩罚矩阵$ R$的情况则明显不同。

速度的影响

在预测时域距离内假设
在预测时域距离内假设车速恒定是合理的,因为在自动驾驶重型车辆应用中,驾驶行为不应过于激进,且车辆具有(非常)缓慢的动态特性。然而,车辆在不同速度下行驶,因此研究不同速度如何影响系统最大正不变集的形状具有重要意义(15) ,包括有和无输入速率约束的情况。

对于离散化速度集合,其最大正不变集可预先离线计算并存储在查找表中。然后,根据当前车速,在线选择相应的终端状态约束。图4展示了不同速度下的不同 $ \bar{\mathcal{C}} {LQR}^\infty $ (等效于采样距离 $\Delta s$,因为采样时间保持恒定 $T_s= 0.1 s$)。可以看出,速度越高,不变集的形状越倾斜。随着速度增加,预测距离也随之增加,因此不变集通常更大,允许更大的$e \psi$,这与更大的$e_y$直接相关。注意,当考虑输入速率约束时,较高速度下的集合曲率范围显著减小。这是合理的且符合期望的行为,因为车辆行驶更快(即通过相同距离所需时间更短),因此在相同距离内转向能力更有限。

4.3. 终端代价 $Q_f$的计算

当模型为线性时不变(即对于特定的 $\xi ∈ \Xi$)时,可以证明控制律 $u(t)= l_{LQR}(\xi(t))\tilde{z}(t)$产生的无限时域成本由以下给出
$$ J^∞(\tilde{z}(t))= \tilde{z}(t)^T P(\xi(t))\tilde{z}(t)= \sum_{k=t}^\infty \tilde{z} {k|t}^T Q\tilde{z} {k|t} + \tilde{u} {k|t}^T R\tilde{u} {k|t} , $$
其中$ P(\xi)$由系统(7)针对特定的 $\xi ∈ \Xi$的代数Riccati方程的解给出,即
$$ A(\xi)^T(P(\xi) −P(\xi)B(\xi)(B(\xi)^T P(\xi)B(\xi)+ R)^{− 1} B(\xi)P(\xi))A(\xi) + Q −P(\xi) = 0, $$
可以重写为
$$ A_{cl}(\xi)^T P(\xi)A_{cl}(\xi)+ l_{LQR}(\xi)^T R l_{LQR}(\xi)+ Q −P(\xi)= 0, $$
其中$ A_{cl}(\xi)=(A(\xi)+ B(\xi)l_{LQR}(\xi))$。因此,终端代价$\tilde{z} {t+N|t}^T Q_f \tilde{z} {t+N|t}$通常选择为针对系统$(7)$的代数Riccati方程的解,其中给定$ \xi ∈ \Xi$。

确定所有 $γ ∈ \Gamma$的无限时域预测代价的上界,对于通过李雅普诺夫方法证明时变线性MPC的闭环稳定性至关重要。换句话说,需要一个 $\bar{P}$使得
$$ A_{cl}(\xi)^T \bar{P}A_{cl}(\xi)+ l_{LQR}(\xi)^T R l_{LQR}(\xi)+ Q − \bar{P} ⪯ 0, ∀\xi ∈ \Xi, $$
寻求。注意,从(24)
$$ l_{LQR}(\xi)^T R l_{LQR}(\xi)+ Q= P(\xi) −A_{cl}(\xi)^T P(\xi)A_{cl}(\xi), $$
那么$(25)$可以重写为
$$ A_{cl}(\xi)^T(\bar{P} −P(\xi))A_{cl}(\xi) −(\bar{P} −P(\xi)) ⪯ 0, ∀\xi ∈ \Xi. $$
我们之前的工作(LimaandMårtenssonetal.,2017)提出$ \bar{P}$应选择为$ \bar{P}= P(\xi^\star)$,其中$ \xi^\star$是$ \xi$的边界之一。然而,进一步的研究表明,尽管由每个$ P(\xi)$定义的椭圆具有较小的长短轴(即与$ \tilde{z}(t)^T P(\xi)\tilde{z}(t)$相关的代价随$|\xi|$的增加而增加),但由于其绕原点存在轻微的旋转,且该旋转依赖于$\xi$,这些椭圆也会相交。这意味着存在一个子集,在该子集中最大代价并不总是在域的极值处,且优化问题不再凸。

我们寻找此类 $\bar{P}$的方法是令 $\bar{P}= \beta P(\xi’)$, $\xi’ ∈ \Xi$,其中选择一个 $\beta> 1$使得(27)成立。为了求出所有 $\xi ∈ \Xi$对应的 $P(\xi)$的闭式表达式,需对相关的代数Riccati方程进行符号求解,并选取唯一的正定解。图5显示了当忽略输入约束时,不等式(27)左边的最大特征值,针对所有可能的 $\xi ∈ \Xi$和 $\xi’ ∈ \Xi$作为$\beta$的函数的变化情况。同时,还研究了 $Q$和 $R$对(27)左边项特征值的影响。可以看出,最大特征值随 $\beta$的变化呈单调递减趋势。(27)仅当左边项的所有特征值均为非正时才满足。实际上,其中一个特征值始终为负;另一个特征值在大多数 $\beta$情况下也为负,但在 $\beta$接近1时可能为正。当考虑输入速率约束时,结果类似,但会多出一个负特征值。

示意图3

示意图4 。当两个特征值均为非正时,不等式(25)成立。)

图6显示了在固定 $\beta= 1.2$且忽略输入速率约束的情况下,不等式(25)左侧的特征值。不等式(25)左侧的特征值被计算为每个 $\xi’$对应的 $\xi$的函数。左侧矩阵的所有特征值均为负,这意味着使用$\beta= 1.2$时,不等式(25)成立。当考虑输入速率约束时,结果类似,且多出一个负特征值。

示意图5 随不同$ \xi’= \kappa_r $作为$ \xi= \kappa_r $和$ \beta= 1.2$的函数的变化情况。)

注意,可以计算出使$(27)$成立的最小$ \beta> 1$。但在实际中,车辆预测与实际车辆运动存在差异。因此,应选择$ \beta$以获得对无限时域成本$(22)$的保守估计。

当考虑输入速率约束时,终端成本项不仅包含终端状态,还包含终端输入。因此,模型预测控制代价函数$(11a)$需要修改。令$ w= [\tilde{z} {t+N|t} \tilde{u} {t+N−1|t}]^T$,则终端成本项变为$ w^T Q_f w$。

5. 闭环使用时变线性MPC实现闭环稳定性和可行性

在本节中,采用李雅普诺夫方法证明所提LTV‐MPC方案的闭环稳定性(11),沿用Borrelli etal.(2017)中使用的符号和论证流程。终端约束和终端代价通过第4节中所述方法确定。4。

假设1 . 状态惩罚矩阵 $Q$和 $Q_f$以及输入惩罚矩阵 $R$均为对称正定矩阵,即 $Q= Q^T ≻ 0$、$Q_f= Q^T_f ≻ 0$和 $R= R^T ≻ 0$。

假设2 . 集合$ \tilde{\mathcal{Z}}$, $ \tilde{\mathcal{Z}}_f$和$ \mathcal{U} $是闭集,且在其内部包含原点。

Assumption 3 . $ \tilde{\mathcal{Z}}_f$ is control invariant and $ \tilde{\mathcal{Z}}_f ⊂ \tilde{\mathcal{Z}}$.

假设4 . 预测模型与被控对象模型之间无模型失配,即
$$ A(\xi(k |t))= A(\xi(k −n|t+ n)), B(\xi(k |t))= B(\xi(k −n|t+ n)), $$
对于所有$ t> 0, k= t,…, t+ N −1$和$ n= 0,…, k −1$。

为了证明在提出的终端约束和终端代价下MPC控制器的闭环稳定性,必须确保控制器的递归可行性(即在时间{v3}优化可行时,在时间{v2}计算出的控制序列$ \tilde{U}^\star_{t+1}$是可行的)。

定理5.1(LTV-MPC可行性) 。问题$(11)$对于所有$t ≥ 0$是可行的,如果$Q_f= \bar{P}$, $ \tilde{\mathcal{Z}} f= \bar{\mathcal{C}} {LQR}^\infty $,且如果$ z(0) ∈ \mathcal{K} N( \bar{\mathcal{C}} {LQR}^\infty )$。

证明 。如果 $z(0) ∈ \mathcal{K} N( \bar{\mathcal{C}} {LQR}^\infty )$,则系统在 $t= 0$处是可行的(即存在一个$N$输入序列能将系统带入集合 $ \bar{\mathcal{C}} {LQR}^\infty $)。根据 $ \bar{\mathcal{C}} {LQR}^\infty $的定义,系统约束在$ \bar{\mathcal{C}} {LQR}^\infty $中的所有点上均瞬时满足,且 $ \bar{\mathcal{C}} {LQR}^\infty $在控制律$u(t)= l_{LQR}(\xi)\tilde{z}(t)$, $∀\xi ∈ \Xi$下不变,因为 $ \bar{\mathcal{C}} {LQR}^\infty ⊂ \mathcal{C} {LQR}^\infty $。因此,系统对于所有 $t ≥ 0$都是可行的。 □

定理5.2(LTV-MPC方案的闭环稳定性) 。考虑模型$(7)$、其约束条件$(2)$以及LTV-MPC控制器(11)。假设假设1–4成立。终端惩罚矩阵$ Q_f $选择为$ \bar{P}$,终端约束$ \tilde{\mathcal{Z}} f $选择为$ \bar{\mathcal{C}} {LQR}^\infty $。则闭环系统的状态收敛到原点。此外,闭环系统的原点是渐近稳定的,其吸引域为$ \mathcal{K} N( \bar{\mathcal{C}} {LQR}^\infty )$。

证明 。考虑问题$(11)$在时刻$ t$。为简便起见,省略了从$ \xi(t)$和$B$的参数。令$ z(t) ∈ \mathcal{K} N(\bar{\mathcal{C}} {LQR}^\infty )$,并令$\tilde{U}^\star_t={\tilde{u}^\star_{k|t} }^{t+N−1} {k=t} $为问题$(11)$的优化器, $\tilde{Z}^\star_t={\tilde{z}^\star {k|t} }^{t+N} {k=t} $为相应的最优状态路径。在实施$\tilde{u}(t)= \tilde{u}^\star {t|t} $并利用假设4后, $\tilde{z}(t+ 1)= \tilde{z} {t+1 | t}= A\tilde{z}(t)+ B\tilde{u}^\star {t|t}$得以获得。令$J^\star_N(\tilde{z}(t))$表示将$\tilde{U}^\star_t $应用于系统状态$ \tilde{z}(t)$时,(11a)的最优总预测代价。

现在考虑问题$(11)$对于$ t+ 1$并构造$J^\star_N(\tilde{z}(t+ 1))$的一个上界。考虑序列
$$ \tilde{U} {t+1}={\tilde{u}^\star {t+1 | t} ,…, \tilde{u}^\star_{t+N| t} , l_{LQR} \tilde{z}^\star_{t+N| t} } $$
以及由初始状态$z(t+ 1)$产生的相应状态轨迹,
$$ \tilde{Z} {t+1} ={\tilde{z}^\star {t+1 | t} ,…, \tilde{z} {t+N| t} ,(A+ Bl {LQR})\tilde{z}^\star_{t+N | t} }, $$
其中$ l_{LQR} $是对应于 $\xi$在$t+N+1$处的LQR反馈控制律。令$ J_N(\tilde{z}(t+ 1))$为将$ \tilde{U} {t+1} $应用于$ \tilde{z}(t+1)$时预测的代价(11a)。需要证明$ J^\star_N(\tilde{z}(t))$是闭环系统的Lyapunov函数。通过直接计算可以推导出以下结果
$$ J_N(\tilde{z}(t+ 1))=J^\star_N(\tilde{z}(t))−(\tilde{z}^T
{t | t} Q\tilde{z} {t | t} + \tilde{u}^{*T} {t | t} R\tilde{u}^\star_{t| t} ) + \tilde{z}^T_{t+N | t}( (A+ Bl_{LQR} )^T \bar{P}(A+ Bl_{LQR} )+ Q + l^T_{LQR} R l_{LQR} − \bar{P})\tilde{z} {t+N | t} , $$
其中,如果$ \beta> 1$的选择如第4.3节所述,
$$ \tilde{z}^T
{t+N | t} \bar{P}\tilde{z} {t+N | t} ≥ \tilde{z}^T {t+N | t}( (A+ Bl_{LQR})^T \bar{P}(A+ Bl_{LQR})+ Q + l^T_{LQR} R l_{LQR})\tilde{z}_{t+N | t} > 0, $$
特征值始终为负,因此不等式$(25)$成立。

̄因此,由于$ \bar{P}$相对于所有系统$ γ ∈ \Gamma$给出了最大的无限时域预测代价,
$$ J_N(\tilde{z}(t+ 1))≤ J^\star_N(\tilde{z}(t))−(\tilde{z}^T_{t | t} Q\tilde{z} {t | t} + \tilde{u}^{ T} {t | t} R\tilde{u}^\star {t| t} ), $$
并且由于根据构造,$J^\star_N(\tilde{z}(t+ 1))≤ J_N(\tilde{z}(t+ 1))$,
$$ J^\star_N(\tilde{z}(t+ 1)) −J^\star_N(\tilde{z}(t))≤ − (\tilde{z}^T_{t | t} Q\tilde{z}_{t | t} + \tilde{u}^{
T}
{t | t} R\tilde{u}^\star_{t| t} ), $$
其中右边由于 $Q$和 $R$的正定性而显然是负定的。

假设1和$(32)$确保$ J^\star_N(\tilde{z}(t))$在闭环系统$(16)$的任意状态轨迹上严格递减 $ \tilde{z} ∈\mathcal{K} N( \bar{\mathcal{C}} {LQR}^\infty )$, $ \tilde{z} ≠ 0$。除了$ J^\star_N(\tilde{z}( t ))$递减这一事实外,它也下界为零,且由闭环系统(16)从任意 $\tilde{z}(0) ∈ \mathcal{K} N(\bar{\mathcal{C}} {LQR}^\infty)$出发的状态轨迹位于$\mathcal{K} N(\bar{\mathcal{C}} {LQR}^\infty)$中,对所有 $t ≥ 0$成立。假设2和3以及公式(32)足以保证当初始状态位于 $ \mathcal{K} N(\bar{\mathcal{C}} {LQR}^\infty)$时,闭环系统的状态随 $t→ ∞$收敛到原点。

李雅普诺夫理论用于证明闭环系统(16)的原点是渐近稳定的。$J^\star_N(\tilde{z}(t))$由于假设1,(32)表明 $J^\star_N(\tilde{z}(t))$沿闭环轨迹递减。然后,$\tilde{z} {t|t}^T Q\tilde{z} {t|t}+ \tilde{u}^{*T} {t|t} R\tilde{u}^\star {t|t} → 0$当 $t→ ∞$时。 □

6. 时变线性MPC设计评估

本节通过仿真和实验验证了使用终端约束 $ \tilde{\mathcal{Z}} f= \bar{\mathcal{C}} {LQR}^\infty$和代价 $Q_f= \bar{P}$的有效性。评估是在一个类似紧急情况的场景中进行的(见图7)。车辆沿直线行驶,前方突然出现一个虚拟障碍物,迫使车辆转向避开。为了确保实验的可重复性,车辆在感知到障碍物的瞬间,总是从一条直线转向另一条相距一米的直线。模型预测控制没有关于该变化发生时间的任何预览信息。驾驶性能(如准确性或平滑性)不是我们分析的重点,但我们仍寻求明确的(不)稳定性证据。在仿真和实验中,车辆均以恒定速度 8 m∕s行驶。采用道路对齐运动学模型(14)作为预测模型。每次运行中唯一修改的参数是状态惩罚矩阵的第一个元素 $Q_{11}$,它用于对车辆相对于参考路径的横向位移$e_y$进行惩罚。其他参数为 $Q_{22}= 10$和 $R= 10$,预测时域为 $N= 3$步,空间离散步长为 $\Delta s= 1.6 m$。在此场景中,仅改变 $Q_{11}$,因为更大的 $Q_{22}$或 $R$会导致控制更保守,从而表现出稳定行为。

终端状态约束和代价是离线计算的,控制器运行在 50 Hz,且每个模型预测控制优化问题通过qpOASES求解(Ferreau, Kirches, Potschka,Bock,& Diehl,2014)。出于实际考虑(即始终确保可行性),在终端约束(11e)中引入松弛变量,并在代价函数(11a)中对其进行二次惩罚。初始调参使得无终端约束和代价的模型预测控制是稳定的。对具有和不具有终端约束及代价的MPC控制器(11)进行了比较。

备注 。在此场景中,由于参考路径是直线,预测模型为线性时不变。然而,从模型预测控制的角度来看,在预测时域的最后一个点之后,参考路径是未知的,并且可能具有任意(有界)曲率。因此,根据定理5.2,稳定性得以保证。

为了简化起见,在本节其余部分中,控制器将按如下方式表示:
示意图6

  • 控制器A — 时变线性MPC不包含终端代价和终端状态集;
  • 控制器B — 时变线性MPC带终端代价和终端状态集忽略输入速率约束;
  • 控制器C — 时变线性MPC含终端代价和终端状态集并考虑输入速率约束。

6.1. 仿真结果

在将控制器部署到真实车辆之前,一个基本步骤是进行仿真评估。使用与Lima和Trincavelli等人(2017)中详尽介绍的相同 MATLAB/Simulink仿真环境。其中描述了系统架构,并证明该仿真环境具有足够的精度,可在将控制器部署到车辆之前进行控制器评估和调优。车辆通过一个四轴非线性自行车模型进行仿真,前部有两个转向轴,后部有两个驱动轴,该模型基于改进的斯堪尼亚G480工程卡车(Lima, Trincavelli, Mårtensson,&Wahlberg,2015),如图8所示。

示意图7

图9显示了仿真过程中计算的路径偏差和转向角。显然,当 $Q_{11}= 1$时,使用或不使用终端代价和终端状态集的性能差异很小。然而,在 $Q_{11}= 5$时,性能差异更为明显,其中控制器B和控制器C收敛到参考路径,而控制器A不稳定。事实上,注意由于了解输入速率约束,控制器C的超调量远小于控制器B。增加 $Q_{11}$后,控制器A仍然不稳定,控制器B的超调量甚至更大,而控制器C保持与之前相同的性能。由于掌握了输入速率约束,控制器C比控制器A或B要温和得多(即上升时间更长),这最终实现了稳定性。

需要注意的是,在使用具有动态特性的非线性模型进行仿真时,假设4中关于无模型失配的条件不再成立。尽管如此,控制设计仍能实现闭环稳定性,因为这是一种保守方法,其在构造终端状态集和代价时考虑了所有可能的模型。这在某些方面类似于基于管的鲁棒MPC方案(Mayne, Seron,& Raković,2005)。在鲁棒MPC方案中,状态和输入约束集会根据系统干扰上界进行收缩。在时变线性MPC情况下,终端状态集也更小,并且包含在每个线性时不变模型各自的终端约束集内部。综上所述,该方法具有一定的内在鲁棒性。其量化超出了本工作的范围,但将作为未来研究的主题。

。在仿真即将达到20秒时,检测到障碍物并发生一米的参考轨迹变化。针对不同的模型预测控制参数调优,评估了第4.2节和第4.3节中推导出的终端代价和终端状态集(含输入速率约束与不含输入速率约束)的有效性。4.2和4.3进行了评估。)

6.2. 实验结果

实验评估中使用的卡车是一辆经过改装的斯堪尼亚G480工程车,如图8所示。车辆配备了传感器平台和用于自动控制转向柱的伺服电机。参考路径由两条相距一米的直线组成,在瑞典瑟德塔勒的斯堪尼亚测试设施内生成,并在离线状态下完成。图10显示了实验过程中计算出的路径偏差和转向角。主要仿真分析的结论在一般情况下也适用于此处。主要区别在于,当增加 $Q_{11}$时,控制器B会更早地变得不稳定。显然,控制器C在所评估的不同参数调优下均保持稳定。实验视频可在Zenodo上获取(Lima, Collares Pereira, Mårtensson, and Wahlberg,2017)。

需要注意的是,所使用的预测时域 $N\Delta s = 4.8m$相对较短。在当前特定场景下,通常增加预测时域会得到一个稳定的系统。事实上,Lima and Trincavelli et al.(2017)展示了自动驾驶卡车使用模型预测控制的实验在没有终端代价和终端状态集以及 $N= 10$的情况下是稳定的。要想通过更大的预测步长可能引发不稳定性,就需要以更快的速度行驶并执行更激进和危险的操作。然而,由于安全原因,进行此类实验是不可取的。在实践中,关于鲁棒性的相同推理在仿真结果部分中已给出。

结论与未来工作

本文研究了在设计和实现用于自动驾驶汽车的参考跟踪线性时变模型预测控制时,如何设计终端代价和终端状态集,以保证闭环稳定性。为了在模型预测控制中预测车辆运动,采用了一种道路对齐非线性空间运动学模型的线性化版本使用了坐标系。终端约束和代价的确定是通过多模型表示进行的,该表示涵盖了预定义参数范围内所有可能的线性时不变车辆模型。终端约束是多模型描述中所有模型的最大正不变集。终端代价是对在多模型表示中的任一可能模型上应用LQR控制律所产生的剩余代价的上界。该上界是通过对剩余代价计算得到的黎卡提矩阵进行正向缩放而获得的。通过在控制器设计中引入终端代价和终端状态集,利用李雅普诺夫论证证明了时变线性MPC方案的闭环渐近稳定性。最后,所提出的控制设计在仿真和实验上进行了评估。考虑的场景类似于紧急情况,即车辆在恒定速度下需要避开一个虚拟障碍物。包含输入速率约束的终端代价和终端状态集的有效性非常明显。当不使用终端代价和终端状态集时,增加控制器激进程度会导致控制器不稳定,即使使用了未考虑输入速率约束的终端代价和终端状态集也是如此。另一方面,当使用考虑了输入速率约束的终端代价和终端状态集时,控制器始终保持稳定。

作为未来的工作,研究这些条件在鲁棒模型预测控制下的表现将十分有意义,以便明确地将模型不确定性对控制器性能的影响纳入考虑,因为当前的预测模型较为简化。出于同样的原因,在实际应用中根据模型鲁棒性对参数$ \beta $进行解析计算其边界将是相关的。此外,当前的研究正在探索当采样距离$ \Delta s $以及相应的车速也作为参数时,如何证明闭环稳定性。

。在仿真时间接近10秒时,检测到障碍物并发生一米的参考轨迹变化。针对不同的模型预测控制参数调优,评估了第4.2节和第4.3节中推导出的终端代价和终端状态集(含输入速率约束和不含输入速率约束)的有效性。4.2和4.3的性能。)

您可能感兴趣的与本文相关的镜像

Langchain-Chatchat

Langchain-Chatchat

AI应用
Langchain

Langchain-Chatchat 是一个基于 ChatGLM 等大语言模型和 Langchain 应用框架实现的开源项目,旨在构建一个可以离线部署的本地知识库问答系统。它通过检索增强生成 (RAG) 的方法,让用户能够以自然语言与本地文件、数据库或搜索引擎进行交互,并支持多种大模型和向量数据库的集成,以及提供 WebUI 和 API 服务

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值