论文阅读——基于深度强化学习的层次异构多Agent跨域搜索方法(IF=7.9)

原文链接:

Hierarchical Heterogeneous Multi-Agent Cross-Domain Search Method Based on Deep Reinforcement Learning | IEEE Journals & Magazine | IEEE Xplore


贡献

1)考虑到跨域连通性和实际约束条件,提出了一种层次化异构多智能体系统。

2)提出了一种层次化的任务分解方法,该方法不仅能在现实约束条件下处理搜索使命,而且能增强人对系统的理解。

3)在MARL的基础上提出了一种串行耦合依赖策略的训练方法MARL,该方法能够成功地同时训练多个策略。


模型建立

主要的困难在于UUV的运动和控制,因为USV和UAV都有自己独特的运动规则。对于UUV,它们的运动由USV发送的命令引导,遵循相同的基本编队来探索水下环境并使用装备的FLS确定水下目标的位置。

约束包括对UUV的位置、角度、速度和加速度的限制。此外,为了确保与USV和外部环境的可靠通信连接,我们对同一基本编队内USV和UUV之间的距离施加了限制。 


任务划分

根据跨域环境属性,将水下搜索任务划分为移动、目标估计和轨迹规划三个子任务。

USV负责目标估计和轨迹规划子任务,而UUV负责移动子任务。

1)模拟环境在其边界内随机重置相关参数。

2)USV根据相关信息,如UUV的姿态和信号,估计目标区域。USV规划UUV的MTP并将其传递给UUV。

3)UUV移动到各自的位置,整个过程重复进行,直到任务完成信息收集。


移动子任务

RM1(t)是与时间段t和时间段t-1的MTP与当前位置的距离差相关的报酬。

                     dU2M(t)= ηU(t)-ηMTP(t)表示UUV与MTP之间的距离;

                     uU max是用于RM1(t)标准化的UUV在洋流中的最大速度。

RM 2(t)是对应于UUV的当前运动方向与连接当前位置和MTP的线的方向之间的角度ω的回报。RM 3(t)是MTP与当前位置之间的距离小于1时的终端报酬。 

采用PPO。


目标估计子任务

通过对同一基本编队内的所有UUV的相关状态信息进行聚合,并结合上一时刻的估计结果,采用目标估计策略πE对目标区域进行估计,有助于规划UUV的轨迹,加速搜索过程。

为了在减轻数据存储需求和降低计算成本之间取得平衡,提出了一种仅使用单向前馈神经网络(FNN)进行估计任务的方法。

为了更有效地利用历史数据,结合了递归神经网络(RNN)的原理,该网络能够使用内部状态(内存)来处理任意输入序列。利用来自前一时隙的估计区域来初始化内部状态,该估计区域用作下一时隙的估计的输入的一部分。

此外,置信度参数有助于对连续估计之间的关系进行建模。这种方法允许FNN保留一种形式的存储器,提供类似于RNN的一些功能,但具有更流线型的网络架构。


FNN

https://zhuanlan.zhihu.com/p/653205860

RNN 

【循环神经网络】5分钟搞懂RNN,3D动画深入浅出_哔哩哔哩_bilibili


通过采用这种配置,仅需要保存上一个时隙的估计结果,并且可以将其看作当前状态的一部分。

RE 1(t)是与真实目标位置和估计目标位置之间的距离相关联的回报。

RE 2(t)在ηT(t)不在估计区域内的情况下惩罚动作,在ηT(t)在估计区域内的情况下奖励动作,并且在估计区域过大的情况下避免给予奖励,因为可能不会积极地搜索任务。

RE 3(t)是当距离dE 2 T小于10并且真实目标位置在估计区域内时的终端奖励。 


轨迹规划子任务

在USV估计目标区域之后,下一步是引导UUV确定目标位置。USV采用策略πP来规划UUV的轨迹。

HHMA系统旨在通过轨迹规划策略快速搜索目标。因此,奖励与目标与每个UUV之间的距离以及每对UUV之间的距离有关。奖励的定义如下:

RP1(t)与估计目标位置与每个UUV之间的最小距离(dU2E(t))相关联,旨在鼓励最近的UUV评估估计位置是否正确。

RP 2(t)是每对UUV之间的距离dU2U(t)之和。这鼓励UUV彻底探索环境,帮助目标估计策略πE准确估计目标位置。

RP 3表示终端奖励,当最小dU2E(t)小于5时触发。


多策略强化学习

由于目标位置估计策略的输出在轨迹规划策略执行之前会改变环境,因此,不能单独训练两个串联耦合的策略,运动子任务可以依赖于目标随机发生器来训练,在目标估计任务的背景下,当π P在RL训练期间经历变化时,状态转移函数PE的概率性质受到环境变化的影响。

此外,γE的存在又增加了一层复杂性,因为不同的政策π P不仅会影响它们自己未来的回报,还会影响整体的环境动态。

考虑到这两种政策之间的相互依赖性,引入了一种MPRL方法。MPRL和MARL政策的培训模式都遵循集中培训和分散执行(CTDE)的方法,类似于MARL。

与MARL相比,MPRL有以下不同之处:

1)异步策略执行引入了更高的依赖度。

2)MPRL是当每个策略被执行时,在现实的时间内给出不同的奖励,而MARL是在所有agent同时执行MARL的策略后给出团队奖励。

3)在MPRL中,两种策略的输入及其对应的批评网络是在不同的时间获得的。相反,在MARL中,所有agent的输入,以及对应的批评网络的输入是同时获得的。

前一个策略可以影响另一个策略的状态转换函数,努力最大限度地减少前一个策略对当前更新的影响。为此,采用了一种基于策略的算法,特别是IPPO,它建立在PPO算法的基础上,用于同时更新πE和π P。采用了一个行动者-批评者架构。

在相同的时隙内,πE和π P的批评网络之间的输入OE和rE不同,这强调了这两个策略的操作中固有的顺序性质。

总结

将水下搜索使命分解为三个子任务,这些子任务设计成能够适应环境条件和设备能力:移动、目标估计和轨迹规划。

为了解决相互依赖策略的训练问题,提出了一种基于MARL和CTDE的MPRL框架,并利用改进的IPPO算法实现了该框架。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值