在线非线性控制的样本高效安全学习与机器人控制器全局动力学分析
1. 在线非线性控制的样本高效安全学习
在在线非线性控制任务的阶段性安全学习问题上,传统的安全学习和控制方法存在一些不足。部分方法会过度扩展安全区域,而另一些则致力于优化策略性能,但都缺乏效率保证。
有研究提出了一种基于乐观主义的在线安全学习框架。与传统方法不同,该框架能够同时实现安全行为的样本高效学习以及具有有界遗憾保证的非线性控制优化。
在实际应用中,不同的控制方法表现各异。例如,使用开发行为(Nom - MPPI - CBF - Exploitation)的方法在经验上显示出样本高效性。而 GT - MPPI 和 LC3 由于缺乏安全考虑,严重违反了角度限制;使用标称模型的安全 MPPI(Nom - MPPI - CBF),由于标称模型不准确且误差较大,仍然会违反安全约束,并且累积奖励较低。
2. 机器人控制器全局动力学分析
2.1 引言
在机器人领域,估计动态系统的吸引区域(RoA)至关重要。它有助于理解控制器在何种条件下能安全地应用于解决任务,同时对于组合控制器和形成混合解决方案也十分关键。然而,计算 RoA 面临诸多挑战。
传统方法如计算 Lyapunov 函数(LF)可以提供 RoA,但对于一般的非线性系统,获得 LF 的解析表达式非常困难。这促使了数值解决方案的出现,但这些方法通常仍需要访问系统的微分方程。近年来,数据驱动控制取得了进展,提供了有效的学习控制器,但这些控制器没有解析表达式。机器学习方法也被用于学习 RoA,但它们往往对参数敏感,在时间和内存上计算需求大,且缺乏保证。
为了解决这些问题,有研究提出了一种基于组合动力学和序理论的拓扑框架。该框架可以有效且可解释地分析机器人控制器的全局动力学,包括数据驱动的控制器。
2.2 问题设定
考虑一个非线性连续时间系统:$\dot{x} = f(x, u)$,其中 $x(t) \in X$ 是时间 $t$ 时在域 $X \subseteq R^n$ 中的状态,$u : X \to U \subseteq R^m$ 是由控制策略 $u(x)$ 定义的 Lipschitz 连续控制,$f : X \times U \to R^n$ 是 Lipschitz 连续函数。
对于给定的时间 $\tau > 0$,$\varphi_{\tau} : X \to X$ 是通过在各处将方程(1)向前求解 $\tau$ 时长得到的函数。由于 $f$ 和 $u$ 是 Lipschitz 连续的,$\varphi_{\tau}$ 也是 Lipschitz 连续的,其全局 Lipschitz 常数记为 $L_{\tau}$。一个子集 $N \subset X$ 是 $\varphi_{\tau}$ 的吸引块,如果 $\varphi_{\tau}(N) \subset int(N)$,此时系统一旦进入 $N$ 就不会逃逸。
问题的目标是找到一种组合方法,以捕获 $\varphi_{\tau} : X \to X$ 感兴趣的动态有意义方面,并系统地识别 $ABlock(\varphi_{\tau})$ 的最小有限子集,该子集既能尽可能紧密地表示吸引子,又能捕获这些吸引子的最大 RoA。
以二阶摆为例,其由微分方程 $m\ell^2\ddot{\theta} = mG\ell\sin\theta - \beta\theta + u$ 建模,使用 LQR 控制器计算控制输入 $u$,在图 1 中使用摆的时间 - 1 映射 $\varphi_1$。
2.3 提出的框架和方法
整个方法可以分为以下四个步骤:
1. 步骤 1:状态空间分解和输入数据生成
- 考虑控制系统在状态空间 $X = \prod_{i = 1}^{n}[a_i, b_i]$ 上的限制,允许周期性边界条件。
- 使用均匀离散化将状态空间分解为 $\prod_{i = 1}^{n} 2^{k_i}$ 个 $n$ 维立方体,记为 $X$。
- 计算 $\varphi_{\tau}$ 在 $X$ 中立方体角点的值,得到有序对集合 $\Phi_{\tau}(X) := {(v, \varphi_{\tau}(v)) | v \in V(X)}$,其中 $V(X)$ 是 $X$ 中所有立方体的角点集合。
-
步骤 2:通过外近似构建组合表示 $F$
- 用组合多值映射 $F : X \Rightarrow X$ 近似连续的 $\varphi_{\tau}$ 的动态,其中顶点是 $n$ 维立方体 $\xi \in X$。
- $F$ 包含有向边 $\xi \to \xi’$,$\forall \xi’ \in \Phi_{\tau}(\xi)$,$F(\xi)$ 中的立方体集合旨在捕获 $\varphi_{\tau}(\xi)$ 的可能状态。
- 为了获得关于 $\varphi_{\tau}$ 动态的数学严格结果,$F$ 需是 $\varphi_{\tau}$ 的外近似,即 $\varphi_{\tau}(\xi) \subset int (F(\xi))$ 对所有 $\xi \in X$ 成立。
- 最小外近似 $F_{min}(\xi) := {\xi’ \in X | \xi’ \cap \varphi_{\tau}(\xi) \neq \varnothing}$,但计算通常很昂贵。实际中,使用 $F(\xi) := {\xi’ | \xi’ \cap B (\varphi_{\tau}(v), Ld/2) \neq \varnothing \text{ 对于某些 } v \in V(\xi)}$ 来计算 $F$,其中 $L$ 是 Lipschitz 常数的估计值。
-
步骤 3:识别 $F$ 的循环和非循环行为
- 使用 Tarjan 的强连通分量(SCC)算法识别 $F$ 的所有循环集 $M$。该算法在 $X$ 的元素数量加上 $F$ 中的边数上是线性的。
- 引入索引集 $P$ 来区分所有循环集 ${M(p) | p \in P}$,并在 $P$ 上施加偏序关系 $\leq$。如果在 $F$ 中存在从 $\xi \in M(p)$ 到 $\xi’ \in M(q)$ 的路径,则 $q \leq p$。
- SCC 算法的输出是一个新的图表示,即 $F$ 的凝聚图 $CG(F)$,它是一个有向无环图。最终输出仅从循环集(非平凡 SCC)导出的子图,即 Morse 图 $MG(F)$,它是一个偏序集 $MG(F) = {M(p) \subset X | p \in (P, \leq)}$。
-
步骤 4:推导 RoA
- 定义 $O_{\bullet} : X \Rightarrow P$ 和 $O^{\bullet} : X \Rightarrow P$ 为:
- $O_{\bullet}(\xi) := \min{p \in P | \text{ 在 } F \text{ 中存在从 } \xi \text{ 到 } \xi’ \in M(p) \text{ 的路径}}$
- $O^{\bullet}(\xi) := \max{p \in P | \text{ 在 } F \text{ 中存在从 } \xi \text{ 到 } \xi’ \in M(p) \text{ 的路径}}$
- 如果 $p$ 是 $(P, \leq)$ 的最小元素且 $O_{\bullet}(\xi) = {p}$,那么对于每个 $x \in \xi$,存在 $n \geq 0$ 使得 $\varphi_{\tau}^n (x) \in M(p)$。因此,${\xi \in X | O_{\bullet}(\xi) = {p}}$ 是使用 $F$ 能够严格识别的 $M(p)$ 的最大 RoA。
- 通过深度优先搜索(DFS)方法探索图 $CG(F)$ 来获得 $O^{\bullet}$。
- 定义 $O_{\bullet} : X \Rightarrow P$ 和 $O^{\bullet} : X \Rightarrow P$ 为:
整个过程的流程图如下:
graph TD;
A[状态空间分解和输入数据生成] --> B[组合表示 F 的构建];
B --> C[识别 F 的循环和非循环行为];
C --> D[推导 RoA];
在实际应用中,该方法通过对状态空间的离散化和对动态的局部探测,能够有效地分析机器人控制器的全局动力学。与传统方法相比,它不需要计算 Lyapunov 函数,也不需要访问控制律的解析表达式,具有更高的准确性和效率,并且能够提供更深入的见解,有助于合成更有效的混合控制器。
在线非线性控制的样本高效安全学习与机器人控制器全局动力学分析
3. 相关方法对比
为了更清晰地了解上述研究提出的方法的优势,下面将其与其他相关方法进行对比。
3.1 与传统数值方法对比
传统的数值方法在估计 RoA 时,往往需要直接访问系统的表达式。例如,最大 Lyapunov 函数(LF)方法会逐步计算 RoA;构建椭球 RoA 近似则可转化为线性矩阵不等式(LMIs)问题,此方法已应用于轮式机器人和 NASA 的通用运输模型等。还有基于 LMI 松弛的凸公式,用于求解凸线性规划并近似具有多项式动力学和半代数输入的系统的 RoA。
然而,这些传统方法通常需要访问系统的微分方程来计算 LF,而本文提出的拓扑框架则避免了计算 LF,并且不需要访问底层控制律的解析表达式,具有更强的通用性。
| 方法类型 | 优点 | 缺点 |
|---|---|---|
| 传统数值方法 | 部分有成熟应用案例 | 需要访问系统表达式,计算 LF 困难 |
| 拓扑框架 | 无需计算 LF,无需解析表达式 |
3.2 与机器学习方法对比
机器学习方法也被用于计算 LF 和障碍函数(BC)。例如,交替使用学习器和验证器在 LF 集合中搜索;将动态映射近似为分段线性神经网络,并使用反例引导方法作为验证器来合成 LF;通过训练神经网络并使用 SMT 求解器作为验证器来获取 LF 和 BC 等。
但这些机器学习方法往往对参数敏感,在时间和内存上计算需求大,且缺乏保证。而本文的拓扑框架相对计算效率较高,能提供更全局、可解释的动力学理解,通常能达到更高的准确性并提供更强的保证。
| 方法类型 | 优点 | 缺点 |
|---|---|---|
| 机器学习方法 | 可处理无解析表达式情况 | 参数敏感,计算需求大,缺乏保证 |
| 拓扑框架 | 计算高效,全局可解释,准确性高,保证强 |
4. 方法的应用与意义
4.1 在机器人控制中的应用
该拓扑框架在机器人控制领域具有广泛的应用前景。在实际的机器人系统中,许多控制器是数据驱动的,没有解析表达式,传统方法难以对其进行有效的全局动力学分析。而本文的框架可以通过对状态空间的离散化和对动态的局部探测,分析这些数据驱动控制器的全局动力学,帮助工程师更好地理解控制器的性能和安全性。
例如,在机器人的运动控制中,通过分析控制器的 RoA,可以确定控制器在哪些状态下能够稳定地工作,从而优化机器人的运动规划,提高机器人的安全性和可靠性。
4.2 对合成混合控制器的意义
该框架对于合成更有效的混合控制器也具有重要意义。通过分析不同控制器的全局动力学和 RoA,可以了解它们的优势和局限性,从而将不同的控制器组合起来,形成具有更广泛 RoA 的混合控制器。
例如,在一个复杂的机器人任务中,可以根据不同的任务阶段和状态,选择合适的控制器进行切换,以提高机器人在整个任务过程中的性能。
5. 总结与展望
本文介绍了在线非线性控制的样本高效安全学习框架以及机器人控制器全局动力学分析的拓扑框架。在线安全学习框架能够实现安全行为的样本高效学习和非线性控制优化,而拓扑框架则为分析机器人控制器的全局动力学提供了一种有效且可解释的方法。
与传统方法和机器学习方法相比,这些框架具有诸多优势,如样本高效性、无需计算 LF、计算效率高、准确性高、可解释性强等。
未来的研究可以进一步扩展样本高效学习在更复杂的高维动态系统中的应用。对于机器人控制器全局动力学分析的拓扑框架,可以进一步优化算法,提高其在大规模系统中的性能,同时探索其在更多机器人应用场景中的应用。
graph LR;
A[在线安全学习框架] --> C[样本高效学习与优化];
B[拓扑框架] --> D[全局动力学分析];
C --> E[提高控制性能];
D --> F[合成混合控制器];
E & F --> G[机器人应用拓展];
通过不断的研究和改进,这些方法有望在机器人领域发挥更大的作用,推动机器人技术的发展。
超级会员免费看
53

被折叠的 条评论
为什么被折叠?



