49、人机交互中的主动不确定性降低与相关路径规划问题

人机交互中的主动不确定性降低与相关路径规划问题

在人机交互领域,机器人如何高效、安全地与人类协作是一个重要的研究方向。本文将探讨两个相关的研究内容:一是基于隐式双场景树的随机模型预测控制(ID - SMPC)规划器在人机交互中的应用,二是相关弧定向问题(CAOP)及其在机器人路径规划中的应用。

1. ID - SMPC规划器在人机交互中的应用

在模拟驾驶场景中,评估了提出的ID - SMPC规划器。为了对比其性能,选择了四个基线规划器:
- 显式双SMPC(ED - SMPC)规划器 :在阶段成本中增加了信息增益项。
- 非双场景树SMPC(ND - SMPC)规划器 :基于不通过观测模型传播信念状态的场景树求解问题。
- 确定性等价MPC(CE - MPC)规划器 :基于确定性等价原理求解问题。
- 基于推理的策略对齐迭代线性二次博弈(ISA - iLQ)规划器 :用于解决一般和微分博弈问题。

所有规划器都配备了相同的人类意图推理方案,车辆和行人动力学分别用运动学自行车模型和单轮车模型描述,时间步长为0.2s。使用MATLAB和YALMIP进行仿真,非线性MPC问题用SNOPT求解。

规划器 与一个人类代理交互时平均求解时间(s) 与三个人类代理交互时平均求解时间(s)
ISA - iLQ 1.92 19.3
CE - MPC 0.333 0.775
ND - SMPC 0.184 1.37
ED - SMPC 0.481 4.17
ID - SMPC 0.478 4.03

从求解时间可以看出,随着代理数量的增加,求解时间呈指数增长,这凸显了在多代理环境中利用稀疏场景树方法和分布式MPC技术提高时间效率的必要性。

为了衡量规划性能,考虑了两个指标:
- 闭环成本 :定义为仿真时间内阶段成本的总和。
- 碰撞率 :发生碰撞的试验次数与总试验次数的百分比。

提出了三个假设:
- H1(性能与安全权衡) :双控制规划器比非双基线规划器在性能 - 安全权衡方面表现更好。
- H2(安全与活性) :对人类隐藏状态的了解不足会导致安全损失和/或活性损失。
- H3(隐式与显式双控制) :即使经过微调,显式双控制也不如隐式双控制高效。

在目标和意识不确定性(示例1)的场景中,性能 - 安全权衡曲线验证了H1。ID - SMPC规划器能让机器人沿着道路中心接近人类驾驶的车辆,更准确地预测人类的隐藏状态,从而规划出更安全的轨迹。而ED - SMPC规划器虽然能降低不确定性,但在整体闭环性能上不如ID - SMPC,验证了H3。非双控制规划器由于对人类隐藏状态了解不足,容易导致碰撞,验证了H2。

graph LR
    A[开始仿真] --> B[选择规划器]
    B --> C{是否为双控制规划器}
    C -- 是 --> D[双控制规划器规划轨迹]
    C -- 否 --> E[非双控制规划器规划轨迹]
    D --> F[评估性能与安全]
    E --> F
    F --> G{是否满足假设}
    G -- 是 --> H[验证假设]
    G -- 否 --> I[分析原因]
2. 相关弧定向问题(CAOP)

CAOP旨在为一组机器人规划路线,以最大化与环境中特征相关的奖励收集。这些特征可以是一维的或环境中的点,并且具有空间相关性,即访问一个特征可能会提供相关特征的部分奖励。机器人在遍历环境时会产生成本,其路线的总成本受资源约束,如电池寿命或操作时间。允许机器人从多个站点(称为 depot 位置)开始和结束路线。

CAOP推广了相关定向问题(COP)和弧定向问题(AOP),并将环境建模为图:
- 环境中的线性特征由图中的边表示,并与奖励相关联。
- 奖励具有空间相关性,遍历一条边可提供相关边的部分奖励。
- 机器人消耗资源,总资源受预算或容量限制。

机器人有两种不同的行驶模式:
- 服务模式 :机器人在边上执行特定任务,如拍照。
- 空载模式 :机器人在不执行服务任务的情况下遍历边,可更快行驶以优化操作时间。

为了解决CAOP问题,提出了混合整数二次规划(MIQP)来形式化问题并给出最优解,但该问题是NP难的,因此还开发了一种高效的贪心构造算法。通过两个应用示例说明了该问题:甲烷气体泄漏检测的信息路径规划和道路网络覆盖。

在道路网络覆盖的示例中,对比了CAOP和AOP的解决方案。如图所示,在资源容量为35单位的情况下,AOP路线覆盖53个路段,而CAOP覆盖69个路段,显示了CAOP利用相关性信息的优势。

graph LR
    A[定义环境图和奖励] --> B[确定资源约束和depot位置]
    B --> C[选择算法(MIQP或贪心算法)]
    C --> D[规划机器人路线]
    D --> E[计算总奖励和总成本]
    E --> F{是否满足资源约束}
    F -- 是 --> G[输出最优路线]
    F -- 否 --> C

综上所述,ID - SMPC规划器在人机交互中能有效提高机器人的安全性和活性,而CAOP为机器人在复杂环境中的路径规划提供了一种考虑特征相关性的有效方法。这些研究成果有助于推动人机协作和机器人路径规划技术的发展。

人机交互中的主动不确定性降低与相关路径规划问题

3. ID - SMPC规划器的安全保障措施

为了确保ID - SMPC规划器在人机交互中的安全性,采用了两种安全保障措施:

  • 概率约束 :可以用机会约束替换原有的约束条件,以获得概率安全保证。即 $P [x \in F] \leq \beta$,其中 $\beta$ 是容忍水平。对于具有动态障碍物的机会约束ST - SMPC问题,已经建立了 $\beta$ 的解析边界和概率可行性保证。
  • 软约束 :软约束是MPC中广泛使用的一种简单而有效的技术,用于确保闭环系统的安全性。通过对原有的硬约束进行松弛,引入松弛变量,虽然不能保证闭环系统完全满足 $x \notin F$,但由于主动降低了人类的不确定性,与基线方法相比,显著降低了碰撞率。
安全保障措施 特点
概率约束 提供概率安全保证,有解析边界和可行性保证
软约束 易于实现、优化高效,可保证可行性,降低碰撞率
4. CAOP问题的详细分析与应用拓展
4.1 CAOP问题的数学模型

CAOP问题可以用混合整数二次规划(MIQP)来形式化。设图 $G=(V, E)$ 表示环境,其中 $V$ 是顶点集,$E$ 是边集。设 $r_e$ 是边 $e$ 的奖励,$c_e$ 是遍历边 $e$ 的成本,$x_e$ 是一个二进制变量,表示是否遍历边 $e$。设 $y_{ij}$ 是一个二进制变量,表示机器人是否从顶点 $i$ 移动到顶点 $j$。

目标函数是最大化总奖励:
[
\max \sum_{e \in E} r_e x_e
]

约束条件包括:
- 每个机器人的总成本不超过其容量:
[
\sum_{e \in E} c_e x_e \leq C
]
- 机器人的路线必须从depot位置开始和结束:
[
\sum_{j \in V} y_{ij} = \sum_{j \in V} y_{ji} = 1, \quad \forall i \in D
]
其中 $D$ 是depot位置的集合。

  • 流量守恒约束:
    [
    \sum_{j \in V} y_{ij} - \sum_{j \in V} y_{ji} = 0, \quad \forall i \in V \setminus D
    ]
4.2 CAOP问题的贪心构造算法步骤

由于CAOP问题是NP难的,开发了一种高效的贪心构造算法,步骤如下:
1. 初始化所有边的访问状态为未访问,所有机器人的路线为空。
2. 计算每条边的单位成本奖励比:$r_e / c_e$。
3. 按照单位成本奖励比从高到低对边进行排序。
4. 依次选择边加入机器人的路线,直到达到机器人的容量限制或没有可选择的边。
5. 如果还有未访问的边,选择一个新的机器人,重复步骤4。

graph LR
    A[初始化] --> B[计算单位成本奖励比]
    B --> C[排序边]
    C --> D[选择边加入路线]
    D --> E{是否达到容量限制}
    E -- 否 --> D
    E -- 是 --> F{是否有未访问边}
    F -- 是 --> G[选择新机器人]
    G --> D
    F -- 否 --> H[结束]
4.3 CAOP问题的应用拓展

除了甲烷气体泄漏检测和道路网络覆盖,CAOP问题还可以应用于其他领域,如:
- 自然灾害救援 :在地震、火灾等灾害发生后,规划救援机器人的路线,以最大化收集受灾区域的信息。
- 农业监测 :规划无人机的路线,对农田进行监测,以最大化收集农作物的生长信息。

5. 研究总结与展望

本文介绍的ID - SMPC规划器通过主动降低人类的不确定性,在人机交互中实现了更好的性能 - 安全权衡,提高了机器人的安全性和活性。CAOP问题为机器人在复杂环境中的路径规划提供了一种考虑特征相关性的有效方法,通过MIQP和贪心构造算法,可以找到最优或近似最优的解决方案。

未来的研究方向包括:
- 进一步优化ID - SMPC规划器的性能,提高求解效率,特别是在多代理环境中。
- 拓展CAOP问题的应用领域,考虑更复杂的环境和任务。
- 结合社会协调和利他主义,使机器人在人机协作中更加智能和高效。

通过不断的研究和改进,这些技术将在人机协作、机器人路径规划等领域发挥更大的作用,为实际应用提供更可靠的支持。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值