论文阅读——基于深度强化学习的层次异构多Agent跨域搜索方法（IF=7.9）

邀邀麟123

已于 2025-02-18 22:08:42 修改

阅读量1k

点赞数 22

文章标签：论文阅读

于 2025-02-18 21:43:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/yaoyaolin______g/article/details/145701498

版权

原文链接：

Hierarchical Heterogeneous Multi-Agent Cross-Domain Search Method Based on Deep Reinforcement Learning | IEEE Journals & Magazine | IEEE Xplore

贡献

1）考虑到跨域连通性和实际约束条件，提出了一种层次化异构多智能体系统。

2）提出了一种层次化的任务分解方法，该方法不仅能在现实约束条件下处理搜索使命，而且能增强人对系统的理解。

3）在MARL的基础上提出了一种串行耦合依赖策略的训练方法MARL，该方法能够成功地同时训练多个策略。

模型建立

主要的困难在于UUV的运动和控制，因为USV和UAV都有自己独特的运动规则。对于UUV，它们的运动由USV发送的命令引导，遵循相同的基本编队来探索水下环境并使用装备的FLS确定水下目标的位置。

约束包括对UUV的位置、角度、速度和加速度的限制。此外，为了确保与USV和外部环境的可靠通信连接，我们对同一基本编队内USV和UUV之间的距离施加了限制。

任务划分

根据跨域环境属性，将水下搜索任务划分为移动、目标估计和轨迹规划三个子任务。

USV负责目标估计和轨迹规划子任务，而UUV负责移动子任务。

1）模拟环境在其边界内随机重置相关参数。

2）USV根据相关信息，如UUV的姿态和信号，估计目标区域。USV规划UUV的MTP并将其传递给UUV。

3）UUV移动到各自的位置，整个过程重复进行，直到任务完成信息收集。

移动子任务

RM1（t）是与时间段t和时间段t-1的MTP与当前位置的距离差相关的报酬。

dU2M（t）= ηU（t）-ηMTP（t）表示UUV与MTP之间的距离；

uU max是用于RM1（t）标准化的UUV在洋流中的最大速度。

RM 2（t）是对应于UUV的当前运动方向与连接当前位置和MTP的线的方向之间的角度ω的回报。RM 3（t）是MTP与当前位置之间的距离小于1时的终端报酬。

采用PPO。

目标估计子任务

通过对同一基本编队内的所有UUV的相关状态信息进行聚合，并结合上一时刻的估计结果，采用目标估计策略πE对目标区域进行估计，有助于规划UUV的轨迹，加速搜索过程。

为了在减轻数据存储需求和降低计算成本之间取得平衡，提出了一种仅使用单向前馈神经网络（FNN）进行估计任务的方法。

为了更有效地利用历史数据，结合了递归神经网络（RNN）的原理，该网络能够使用内部状态（内存）来处理任意输入序列。利用来自前一时隙的估计区域来初始化内部状态，该估计区域用作下一时隙的估计的输入的一部分。

此外，置信度参数有助于对连续估计之间的关系进行建模。这种方法允许FNN保留一种形式的存储器，提供类似于RNN的一些功能，但具有更流线型的网络架构。

FNN

https://zhuanlan.zhihu.com/p/653205860

RNN

【循环神经网络】5分钟搞懂RNN，3D动画深入浅出_哔哩哔哩_bilibili

通过采用这种配置，仅需要保存上一个时隙的估计结果，并且可以将其看作当前状态的一部分。

RE 1（t）是与真实目标位置和估计目标位置之间的距离相关联的回报。

RE 2（t）在ηT（t）不在估计区域内的情况下惩罚动作，在ηT（t）在估计区域内的情况下奖励动作，并且在估计区域过大的情况下避免给予奖励，因为可能不会积极地搜索任务。

RE 3（t）是当距离dE 2 T小于10并且真实目标位置在估计区域内时的终端奖励。

轨迹规划子任务

在USV估计目标区域之后，下一步是引导UUV确定目标位置。USV采用策略πP来规划UUV的轨迹。

HHMA系统旨在通过轨迹规划策略快速搜索目标。因此，奖励与目标与每个UUV之间的距离以及每对UUV之间的距离有关。奖励的定义如下：

RP1（t）与估计目标位置与每个UUV之间的最小距离（dU2E（t））相关联，旨在鼓励最近的UUV评估估计位置是否正确。

RP 2（t）是每对UUV之间的距离dU2U（t）之和。这鼓励UUV彻底探索环境，帮助目标估计策略πE准确估计目标位置。

RP 3表示终端奖励，当最小dU2E（t）小于5时触发。

多策略强化学习

由于目标位置估计策略的输出在轨迹规划策略执行之前会改变环境，因此，不能单独训练两个串联耦合的策略，运动子任务可以依赖于目标随机发生器来训练，在目标估计任务的背景下，当π P在RL训练期间经历变化时，状态转移函数PE的概率性质受到环境变化的影响。

此外，γE的存在又增加了一层复杂性，因为不同的政策π P不仅会影响它们自己未来的回报，还会影响整体的环境动态。

考虑到这两种政策之间的相互依赖性，引入了一种MPRL方法。MPRL和MARL政策的培训模式都遵循集中培训和分散执行（CTDE）的方法，类似于MARL。

与MARL相比，MPRL有以下不同之处：

1）异步策略执行引入了更高的依赖度。

2）MPRL是当每个策略被执行时，在现实的时间内给出不同的奖励，而MARL是在所有agent同时执行MARL的策略后给出团队奖励。

3）在MPRL中，两种策略的输入及其对应的批评网络是在不同的时间获得的。相反，在MARL中，所有agent的输入，以及对应的批评网络的输入是同时获得的。

前一个策略可以影响另一个策略的状态转换函数，努力最大限度地减少前一个策略对当前更新的影响。为此，采用了一种基于策略的算法，特别是IPPO，它建立在PPO算法的基础上，用于同时更新πE和π P。采用了一个行动者-批评者架构。

在相同的时隙内，πE和π P的批评网络之间的输入OE和rE不同，这强调了这两个策略的操作中固有的顺序性质。

总结

将水下搜索使命分解为三个子任务，这些子任务设计成能够适应环境条件和设备能力：移动、目标估计和轨迹规划。

为了解决相互依赖策略的训练问题，提出了一种基于MARL和CTDE的MPRL框架，并利用改进的IPPO算法实现了该框架。

博客等级

码龄4年

12
原创

225
点赞

225
收藏

100
粉丝

关注

私信

热门文章

上一篇：: 论文阅读——基于改进深度强化学习的多无人艇任务规划方法（IF=8.2)

下一篇：: 论文阅读——非精确情报信息环境下跨域无人集群动态目标分配算法研究

最新评论

论文阅读——基于Transformer的仿强化学习多机器人路径规划（IF==11.7)
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读——基于MUTS的多无人艇协同目标跟踪（IF=15.3）
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读——DAWN：不确定环境下基于两层优化机制的多无人机动态任务规划（IF=8.2）
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读——基于PSE-D模型的无人机与无人艇协同反潜搜索航迹规划（IF=5.1）
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读——基于深度强化学习的层次异构多Agent跨域搜索方法（IF=7.9）
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。