54、在线非线性控制的样本高效安全学习与机器人控制器全局动力学分析

在线非线性控制的样本高效安全学习与机器人控制器全局动力学分析

1. 在线非线性控制的样本高效安全学习

在在线非线性控制任务的阶段性安全学习问题上,传统的安全学习和控制方法存在一些不足。部分方法会过度扩展安全区域,而另一些则致力于优化策略性能,但都缺乏效率保证。

有研究提出了一种基于乐观主义的在线安全学习框架。与传统方法不同,该框架能够同时实现安全行为的样本高效学习以及具有有界遗憾保证的非线性控制优化。

在实际应用中,不同的控制方法表现各异。例如,使用开发行为(Nom - MPPI - CBF - Exploitation)的方法在经验上显示出样本高效性。而 GT - MPPI 和 LC3 由于缺乏安全考虑,严重违反了角度限制;使用标称模型的安全 MPPI(Nom - MPPI - CBF),由于标称模型不准确且误差较大,仍然会违反安全约束,并且累积奖励较低。

2. 机器人控制器全局动力学分析
2.1 引言

在机器人领域,估计动态系统的吸引区域(RoA)至关重要。它有助于理解控制器在何种条件下能安全地应用于解决任务,同时对于组合控制器和形成混合解决方案也十分关键。然而,计算 RoA 面临诸多挑战。

传统方法如计算 Lyapunov 函数(LF)可以提供 RoA,但对于一般的非线性系统,获得 LF 的解析表达式非常困难。这促使了数值解决方案的出现,但这些方法通常仍需要访问系统的微分方程。近年来,数据驱动控制取得了进展,提供了有效的学习控制器,但这些控制器没有解析表达式。机器学习方法也被用于学习 RoA,但它们往往对参数敏感,在时间和内存上计算需求大,且缺乏保证。

为了解决这些问题,有研究提出了一种基于组合动力学和序理论的拓扑框架。该框架可以有效且可解释地分析机器人控制器的全局动力学,包括数据驱动的控制器。

2.2 问题设定

考虑一个非线性连续时间系统:$\dot{x} = f(x, u)$,其中 $x(t) \in X$ 是时间 $t$ 时在域 $X \subseteq R^n$ 中的状态,$u : X \to U \subseteq R^m$ 是由控制策略 $u(x)$ 定义的 Lipschitz 连续控制,$f : X \times U \to R^n$ 是 Lipschitz 连续函数。

对于给定的时间 $\tau > 0$,$\varphi_{\tau} : X \to X$ 是通过在各处将方程(1)向前求解 $\tau$ 时长得到的函数。由于 $f$ 和 $u$ 是 Lipschitz 连续的,$\varphi_{\tau}$ 也是 Lipschitz 连续的,其全局 Lipschitz 常数记为 $L_{\tau}$。一个子集 $N \subset X$ 是 $\varphi_{\tau}$ 的吸引块,如果 $\varphi_{\tau}(N) \subset int(N)$,此时系统一旦进入 $N$ 就不会逃逸。

问题的目标是找到一种组合方法,以捕获 $\varphi_{\tau} : X \to X$ 感兴趣的动态有意义方面,并系统地识别 $ABlock(\varphi_{\tau})$ 的最小有限子集,该子集既能尽可能紧密地表示吸引子,又能捕获这些吸引子的最大 RoA。

以二阶摆为例,其由微分方程 $m\ell^2\ddot{\theta} = mG\ell\sin\theta - \beta\theta + u$ 建模,使用 LQR 控制器计算控制输入 $u$,在图 1 中使用摆的时间 - 1 映射 $\varphi_1$。

2.3 提出的框架和方法

整个方法可以分为以下四个步骤:
1. 步骤 1:状态空间分解和输入数据生成
- 考虑控制系统在状态空间 $X = \prod_{i = 1}^{n}[a_i, b_i]$ 上的限制,允许周期性边界条件。
- 使用均匀离散化将状态空间分解为 $\prod_{i = 1}^{n} 2^{k_i}$ 个 $n$ 维立方体,记为 $X$。
- 计算 $\varphi_{\tau}$ 在 $X$ 中立方体角点的值,得到有序对集合 $\Phi_{\tau}(X) := {(v, \varphi_{\tau}(v)) | v \in V(X)}$,其中 $V(X)$ 是 $X$ 中所有立方体的角点集合。

  1. 步骤 2:通过外近似构建组合表示 $F$

    • 用组合多值映射 $F : X \Rightarrow X$ 近似连续的 $\varphi_{\tau}$ 的动态,其中顶点是 $n$ 维立方体 $\xi \in X$。
    • $F$ 包含有向边 $\xi \to \xi’$,$\forall \xi’ \in \Phi_{\tau}(\xi)$,$F(\xi)$ 中的立方体集合旨在捕获 $\varphi_{\tau}(\xi)$ 的可能状态。
    • 为了获得关于 $\varphi_{\tau}$ 动态的数学严格结果,$F$ 需是 $\varphi_{\tau}$ 的外近似,即 $\varphi_{\tau}(\xi) \subset int (F(\xi))$ 对所有 $\xi \in X$ 成立。
    • 最小外近似 $F_{min}(\xi) := {\xi’ \in X | \xi’ \cap \varphi_{\tau}(\xi) \neq \varnothing}$,但计算通常很昂贵。实际中,使用 $F(\xi) := {\xi’ | \xi’ \cap B (\varphi_{\tau}(v), Ld/2) \neq \varnothing \text{ 对于某些 } v \in V(\xi)}$ 来计算 $F$,其中 $L$ 是 Lipschitz 常数的估计值。
  2. 步骤 3:识别 $F$ 的循环和非循环行为

    • 使用 Tarjan 的强连通分量(SCC)算法识别 $F$ 的所有循环集 $M$。该算法在 $X$ 的元素数量加上 $F$ 中的边数上是线性的。
    • 引入索引集 $P$ 来区分所有循环集 ${M(p) | p \in P}$,并在 $P$ 上施加偏序关系 $\leq$。如果在 $F$ 中存在从 $\xi \in M(p)$ 到 $\xi’ \in M(q)$ 的路径,则 $q \leq p$。
    • SCC 算法的输出是一个新的图表示,即 $F$ 的凝聚图 $CG(F)$,它是一个有向无环图。最终输出仅从循环集(非平凡 SCC)导出的子图,即 Morse 图 $MG(F)$,它是一个偏序集 $MG(F) = {M(p) \subset X | p \in (P, \leq)}$。
  3. 步骤 4:推导 RoA

    • 定义 $O_{\bullet} : X \Rightarrow P$ 和 $O^{\bullet} : X \Rightarrow P$ 为:
      • $O_{\bullet}(\xi) := \min{p \in P | \text{ 在 } F \text{ 中存在从 } \xi \text{ 到 } \xi’ \in M(p) \text{ 的路径}}$
      • $O^{\bullet}(\xi) := \max{p \in P | \text{ 在 } F \text{ 中存在从 } \xi \text{ 到 } \xi’ \in M(p) \text{ 的路径}}$
    • 如果 $p$ 是 $(P, \leq)$ 的最小元素且 $O_{\bullet}(\xi) = {p}$,那么对于每个 $x \in \xi$,存在 $n \geq 0$ 使得 $\varphi_{\tau}^n (x) \in M(p)$。因此,${\xi \in X | O_{\bullet}(\xi) = {p}}$ 是使用 $F$ 能够严格识别的 $M(p)$ 的最大 RoA。
    • 通过深度优先搜索(DFS)方法探索图 $CG(F)$ 来获得 $O^{\bullet}$。

整个过程的流程图如下:

graph TD;
    A[状态空间分解和输入数据生成] --> B[组合表示 F 的构建];
    B --> C[识别 F 的循环和非循环行为];
    C --> D[推导 RoA];

在实际应用中,该方法通过对状态空间的离散化和对动态的局部探测,能够有效地分析机器人控制器的全局动力学。与传统方法相比,它不需要计算 Lyapunov 函数,也不需要访问控制律的解析表达式,具有更高的准确性和效率,并且能够提供更深入的见解,有助于合成更有效的混合控制器。

在线非线性控制的样本高效安全学习与机器人控制器全局动力学分析

3. 相关方法对比

为了更清晰地了解上述研究提出的方法的优势,下面将其与其他相关方法进行对比。

3.1 与传统数值方法对比

传统的数值方法在估计 RoA 时,往往需要直接访问系统的表达式。例如,最大 Lyapunov 函数(LF)方法会逐步计算 RoA;构建椭球 RoA 近似则可转化为线性矩阵不等式(LMIs)问题,此方法已应用于轮式机器人和 NASA 的通用运输模型等。还有基于 LMI 松弛的凸公式,用于求解凸线性规划并近似具有多项式动力学和半代数输入的系统的 RoA。

然而,这些传统方法通常需要访问系统的微分方程来计算 LF,而本文提出的拓扑框架则避免了计算 LF,并且不需要访问底层控制律的解析表达式,具有更强的通用性。

方法类型 优点 缺点
传统数值方法 部分有成熟应用案例 需要访问系统表达式,计算 LF 困难
拓扑框架 无需计算 LF,无需解析表达式
3.2 与机器学习方法对比

机器学习方法也被用于计算 LF 和障碍函数(BC)。例如,交替使用学习器和验证器在 LF 集合中搜索;将动态映射近似为分段线性神经网络,并使用反例引导方法作为验证器来合成 LF;通过训练神经网络并使用 SMT 求解器作为验证器来获取 LF 和 BC 等。

但这些机器学习方法往往对参数敏感,在时间和内存上计算需求大,且缺乏保证。而本文的拓扑框架相对计算效率较高,能提供更全局、可解释的动力学理解,通常能达到更高的准确性并提供更强的保证。

方法类型 优点 缺点
机器学习方法 可处理无解析表达式情况 参数敏感,计算需求大,缺乏保证
拓扑框架 计算高效,全局可解释,准确性高,保证强
4. 方法的应用与意义
4.1 在机器人控制中的应用

该拓扑框架在机器人控制领域具有广泛的应用前景。在实际的机器人系统中,许多控制器是数据驱动的,没有解析表达式,传统方法难以对其进行有效的全局动力学分析。而本文的框架可以通过对状态空间的离散化和对动态的局部探测,分析这些数据驱动控制器的全局动力学,帮助工程师更好地理解控制器的性能和安全性。

例如,在机器人的运动控制中,通过分析控制器的 RoA,可以确定控制器在哪些状态下能够稳定地工作,从而优化机器人的运动规划,提高机器人的安全性和可靠性。

4.2 对合成混合控制器的意义

该框架对于合成更有效的混合控制器也具有重要意义。通过分析不同控制器的全局动力学和 RoA,可以了解它们的优势和局限性,从而将不同的控制器组合起来,形成具有更广泛 RoA 的混合控制器。

例如,在一个复杂的机器人任务中,可以根据不同的任务阶段和状态,选择合适的控制器进行切换,以提高机器人在整个任务过程中的性能。

5. 总结与展望

本文介绍了在线非线性控制的样本高效安全学习框架以及机器人控制器全局动力学分析的拓扑框架。在线安全学习框架能够实现安全行为的样本高效学习和非线性控制优化,而拓扑框架则为分析机器人控制器的全局动力学提供了一种有效且可解释的方法。

与传统方法和机器学习方法相比,这些框架具有诸多优势,如样本高效性、无需计算 LF、计算效率高、准确性高、可解释性强等。

未来的研究可以进一步扩展样本高效学习在更复杂的高维动态系统中的应用。对于机器人控制器全局动力学分析的拓扑框架,可以进一步优化算法,提高其在大规模系统中的性能,同时探索其在更多机器人应用场景中的应用。

graph LR;
    A[在线安全学习框架] --> C[样本高效学习与优化];
    B[拓扑框架] --> D[全局动力学分析];
    C --> E[提高控制性能];
    D --> F[合成混合控制器];
    E & F --> G[机器人应用拓展];

通过不断的研究和改进,这些方法有望在机器人领域发挥更大的作用,推动机器人技术的发展。

内容概要:本文档围绕六自由度机械臂的ANN人工神经网络设计展开,涵盖正向逆向运动学求解、正向动力学控制,并采用拉格朗日-欧拉法推导逆向动力学方程,所有内容均通过Matlab代码实现。同时结合RRT路径规划B样条优化技术,提升机械臂运动轨迹的合理性平滑性。文中还涉及多种先进算法仿真技术的应用,如状态估计中的UKF、AUKF、EKF等滤波方法,以及PINN、INN、CNN-LSTM等神经网络模型在工程问题中的建模求解,展示了Matlab在机器人控制、智能算法系统仿真中的强大能力。; 适合人群:具备一定Ma六自由度机械臂ANN人工神经网络设计:正向逆向运动学求解、正向动力学控制、拉格朗日-欧拉法推导逆向动力学方程(Matlab代码实现)tlab编程基础,从事机器人控制、自动化、智能制造、人工智能等相关领域的科研人员及研究生;熟悉运动学、动力学建模或对神经网络在控制系统中应用感兴趣的工程技术人员。; 使用场景及目标:①实现六自由度机械臂的精确运动学动力学建模;②利用人工神经网络解决传统解析方法难以处理的非线性控制问题;③结合路径规划轨迹优化提升机械臂作业效率;④掌握基于Matlab的状态估计、数据融合智能算法仿真方法; 阅读建议:建议结合提供的Matlab代码进行实践操作,重点理解运动学建模神经网络控制的设计流程,关注算法实现细节仿真结果分析,同时参考文中提及的多种优化估计方法拓展研究思路。
内容概要:本文围绕电力系统状态估计中的异常检测分类展开,重点介绍基于Matlab代码实现的相关算法仿真方法。文章详细阐述了在状态估计过程中如何识别和分类量测数据中的异常值,如坏数据、拓扑错误和参数误差等,采用包括残差分析、加权最小二乘法(WLS)、标准化残差检测等多种经典现代检测手段,并结合实际算例验证方法的有效性。同时,文档提及多种状态估计算法如UKF、AUKF、EUKF等在负荷突变等动态场景下的应用,强调异常处理对提升电力系统运行可靠性安全性的重要意义。; 适合人群:具备电力系统基础知识和一定Matlab编程能力的高校研究生、科研人员及从事电力系【状态估计】电力系统状态估计中的异常检测分类(Matlab代码实现)统自动化相关工作的工程技术人员。; 使用场景及目标:①掌握电力系统状态估计中异常数据的产生机制分类方法;②学习并实现主流异常检测算法,提升对状态估计鲁棒性的理解仿真能力;③服务于科研项目、课程设计或实际工程中的数据质量分析环节; 阅读建议:建议结合文中提供的Matlab代码进行实践操作,配合电力系统状态估计的基本理论进行深入理解,重点关注异常检测流程的设计逻辑不同算法的性能对比,宜从简单案例入手逐步过渡到复杂系统仿真。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值