66、具有记忆功能的强化学习任务监督器在人机多机器人协调系统中的应用

具有记忆功能的强化学习任务监督器在人机多机器人协调系统中的应用

1. 引言

人机多机器人协调系统(HMRCS)近年来成为研究热点。在HMRCS的研究中,研究者们提出了不同方法来实现人机多机器人决策融合。然而,现有的方法在处理多机器人系统(MRS)执行任务时,没有考虑到当MRS遇到类似紧急情况或问题时,人类的重复干预。这导致了决策等待时间长、任务误差大等问题,限制了多机器人系统的自主性。

目前,通过学习和记忆人类干预信息来实现高级智能的研究被提出,通常被称为人在环(HIL)混合增强智能。但这些方法尚未应用于MRS的行为控制中。为了解决HMRCS中动态任务优先级调整和人类重复参与的问题,本文提出了一种在零空间行为控制(NSBC)框架下,集成深度Q网络(DQN)和长短期记忆(LSTM)知识库的具有记忆功能的强化学习任务监督器(RLMS)。

2. 预备知识和问题陈述
2.1 零空间行为控制

NSBC方法可以设计为一个三层结构,包括基本行为、复合行为和任务监督器。通过对每个行为的速度输出进行几何层次组合,可以为机器人获取参考速度信号。
- 基本行为 :在NSBC中,基本行为是在运动学层面上需要控制的原子任务功能。可以用一个关于系统自由度和待控制变量的函数来表示。定义 $\rho \in R^m$ 为任务变量,$\delta \in R^n$ 为系统配置。第 $i$ 个机器人的任务函数可以表示为 $\rho_i = f(\delta_i)$,其参考速度可以通过闭环逆运动学(CLIK)算法计算:
$v_{i,d} = J^{\dagger} i (\dot{\rho}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值