具有记忆功能的强化学习任务监督器在人机多机器人协调系统中的应用
1. 引言
人机多机器人协调系统(HMRCS)近年来成为研究热点。在HMRCS的研究中,研究者们提出了不同方法来实现人机多机器人决策融合。然而,现有的方法在处理多机器人系统(MRS)执行任务时,没有考虑到当MRS遇到类似紧急情况或问题时,人类的重复干预。这导致了决策等待时间长、任务误差大等问题,限制了多机器人系统的自主性。
目前,通过学习和记忆人类干预信息来实现高级智能的研究被提出,通常被称为人在环(HIL)混合增强智能。但这些方法尚未应用于MRS的行为控制中。为了解决HMRCS中动态任务优先级调整和人类重复参与的问题,本文提出了一种在零空间行为控制(NSBC)框架下,集成深度Q网络(DQN)和长短期记忆(LSTM)知识库的具有记忆功能的强化学习任务监督器(RLMS)。
2. 预备知识和问题陈述
2.1 零空间行为控制
NSBC方法可以设计为一个三层结构,包括基本行为、复合行为和任务监督器。通过对每个行为的速度输出进行几何层次组合,可以为机器人获取参考速度信号。
- 基本行为 :在NSBC中,基本行为是在运动学层面上需要控制的原子任务功能。可以用一个关于系统自由度和待控制变量的函数来表示。定义 $\rho \in R^m$ 为任务变量,$\delta \in R^n$ 为系统配置。第 $i$ 个机器人的任务函数可以表示为 $\rho_i = f(\delta_i)$,其参考速度可以通过闭环逆运动学(CLIK)算法计算:
$v_{i,d} = J^{\dagger} i (\dot{\rho}
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



