AAAI 2020使用深度强化学习的MOBA游戏《Towards Playing Full MOBA Games with Deep Reinforcement Learning》打败王者荣耀顶尖选手

最新推荐文章于 2024-08-12 08:49:32 发布

原创

最新推荐文章于 2024-08-12 08:49:32 发布 · 3.8k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #游戏 #强化学习 #蒙特卡洛树搜索

本文介绍腾讯AILab在NeurlPS2020会议上发表的论文，该论文提出了一种使用深度强化学习玩完整MOBA游戏的方法。研究结合了多种学习技术，如策略蒸馏、多头值估计等，成功训练出了能击败顶级电竞玩家的王者荣耀AI。

不知道你是否玩过王者荣耀，不知道你是不是经历过被人机疯狂怼在塔下强杀然后嘲讽你的经历？就，真说多了就是泪。
最近，NeurlPS2020会议收录了来自腾讯AI Lab的一篇强化学习的论文《Towards Playing Full MOBA Games with Deep Reinforcement Learning》本文将介绍一下这篇论所讲的内容。

摘要

多人在线竞技类游戏 MOBA 长久以来一直吸引着众多玩家，其中的王者荣耀、英雄联盟、Dota 2 等最近也常被 AI 研究者当做人工智能的实验场，其中的多智能体、巨大的状态动作空间、复杂的环境等元素向 AI 系统提出了极大的挑战。开发用于 MOBA 游戏的 AI 引起了广泛的关注。

然而，当 OpenAI 的 Dota AI 将游戏限制在只能选择 17 名英雄的情况下，若想扩展英雄库，现有的工作在处理由智能体组合（即阵容）爆炸性增长所导致的游戏复杂性方面的问题存在难度。因此，现有的 AI 系统并不能掌握完全没有限制的 MOBA 游戏。

本文，将新的和已有的学习技术结合起来，对系统设计和算法都做了大量的优化，包括课程自我博弈学习、策略蒸馏（policy distillation）, 离策略自适应（off-policy adaption）、多头值估计（multi-head value estimation）、蒙特卡洛树搜索等，在训练和用大量英雄玩游戏，同时巧妙地解决了可扩展性的问题。

在王者荣耀上进行测试，展示了人类可以打造出能够击败顶级电子竞技玩家的超级 AI 智能体。通过文献中首次对 MOBA AI 智能体进行大规模性能测试，证明了该 AI 的优越性。