多智能体深度强化学习在追捕 - 逃避游戏可扩展性中的应用
1. 引言
在许多实际应用场景中,智能体可以通过深度强化学习在模拟环境中学习控制策略,随后部署到实际应用中。通常情况下,当实际应用环境与训练环境相似时,智能体能够成功完成任务。然而,一旦环境发生变化,训练好的智能体性能就会下降。此时,就需要在现实应用中重新训练整个系统,让智能体学习新的控制策略。但重新训练智能体不仅会消耗大量的人力、物力和财力,还会导致时间延迟。在某些情况下,这种时间延迟从安全或实时系统的角度来看是不可接受的,尤其是在军事领域。
多智能体追捕 - 逃避游戏在众多实际应用中具有重要价值,例如跟踪与侦察、搜索并捕获敌方入侵者、监控和清理环境等。在军事领域,弹道导弹需要跟踪并打击移动目标,其控制系统需要及时获取目标信息并改进策略以实现高精度打击。虽然已经有几种强化学习算法被提出用于解决追捕 - 逃避游戏问题,但在实际应用中,环境可能会发生变化,比如一些训练好的追捕者出现故障无法工作,或者有新的追捕者加入,这都会导致实际使用的智能体数量与训练时不同,即环境发生了改变。我们关注的问题是,当训练好的追捕者数量发生变化时,它们是否仍然能够捕获逃避者。
近年来,深度强化学习在许多领域取得了巨大成就,如在电子游戏和棋盘游戏中击败顶级人类大师、控制复杂机械操作、部署网络资源、为数据中心节省大量能源,甚至实现机器学习算法的自动调优。
多智能体领域的协作和通信研究历史悠久。最常见的多智能体学习方法是使用 Q 学习,但在实际应用中效果不佳。Watkins 的 Q(λ) - 学习算法适用于离散网格空间。最近,端到端学习被证明对多智能体学习策略很有用,它将所有智能体的动作和状态嵌入到深度神经网络中,在优化深度神经网络
超级会员免费看
订阅专栏 解锁全文
2275

被折叠的 条评论
为什么被折叠?



