多智能体路多游戏协作路径规划与癫痫发作检测分类研究
多智能体路多游戏协作路径规划
在路多游戏中,每个智能体的最大奖励由到达目标单元格所跨越的单元格数量体现,最多为 58 个单元格。新提出的算法将马尔可夫决策过程(MDP)原理引入路多问题,该算法基于一系列特性,能提高同一组内智能体之间的协作程度。这种协作体现在算法的防御策略上,可选择最佳目标进行击杀;还体现在通过增加参与玩家来提高游戏可能性。此路径规划还可用于解决工程问题,如机器人路径控制。
为实现路多问题,分析了使用 NetLogo 平台的应用。该面向智能体的平台提供了预定义方法,便于实现。每个智能体需浏览 58 个单元格以到达目标单元格,其回路由 14 个中立单元格和 44 个普通单元格(黑色单元格)组成。
模拟中考虑了两种不同情况:
- 情况 A :使用协作路径规划的智能体组。
- 情况 B :采用贪婪策略或试图最大化预期奖励以实现目标的智能体组,基于自私的智能体,每个智能体重复使用骰子,直到自己到达目标单元格才交给同组其他智能体,基于 Q - 学习玩家。
同时使用了两种不同的骰子:
- 普通骰子 :在每次游戏迭代中返回 1 到 6 之间的随机数。
- 作弊骰子 :为参与组返回相同的数字序列,用于避免抽签运气问题,并为组间提供一定公平性。
模拟结果基于对两组的研究,每组使用一种比较的路径策略。以下是具体的模拟结果:
|模拟情况|普通骰子平均游戏时长(迭代次数)|作弊骰子平均游戏时长(迭代次数)|
超级会员免费看
订阅专栏 解锁全文

17

被折叠的 条评论
为什么被折叠?



