论文链接:https://www.aminer.cn/pub/6164fcc15244ab9dcb24cf7a?f=cs
在多项国际赛事中夺得冠军则是指,TiKick在单智能体控制和多智能体控制上均取得了SOTA性能,并且还是首次实现同时操控十个球员完成整个足球游戏。
这支强大的AI团队是如何训练出来的呢?
从单智能体策略中进化出的多智能体足球AI
在此之前,先简单了解一下训练所用的强化学习环境,也就是这个足球游戏:Google Research Football(GRF)。
它由谷歌于2019年发布,提供基于物理的3D足球模拟,支持所有主要的比赛规则,由智能体操控其中的一名或多名足球运动员与另一方内置AI对战。
在由三千步组成的上下半场比赛中,智能体需要不断决策出移动、传球、射门、盘球、铲球、冲刺等19个动作完成进球。
在这样的足球游戏环境中进行强化学习难度有二:
一是因为多智能体环境,也就是一共10名球员(不含守门员)可供操作,算法需要在如此巨大的动作空间中搜索出合适的动作组合;
二是大家都知道足球比赛中一场进球数极少,算法因此很难频繁获得来自环境的奖励,训练难度也就大幅增大。
而清华大学此次的目标是控制多名球员完成比赛。
他们先从Kaggle在2020年举办的GRF世界锦标赛中,观摩了最终夺得冠军的WeKick团队数万场的自我对弈数据,使用离线强化学习方法从中学习。
AMiner,让AI帮你理解科学!https://www.aminer.cn




12-12
924
924
12-08
770
770
12-08
575
575
博客
一文通关天文物理顶刊
11-28
945
945
11-28
794
794
11-24
893
893
博客
农林环境类高价值期刊
11-24
966
966
11-24
1582
1582
11-14
1239
1239
11-08
1110
1110
11-07
771
771
11-03
1051
1051
11-03
647
647


被折叠的 条评论
为什么被折叠?



