WrightEagle决策框架:2D足球模拟联赛的智能决策方案
1. 背景
在Robocup 2D足球模拟联赛中,每支队伍由12个智能体组成,包括11名球员和1名在线教练。这些智能体分别连接到竞赛服务器,服务器模拟了球员和球的动力学与运动学。在每个决策周期,服务器发送给球员的信息高度不确定且不完整,这取决于场地和智能体自身的情况。球员接收信息后,需在100毫秒内将动作发送回服务器执行,这对智能体的响应速度提出了很高要求。
在这个联赛中,我们面临两个主要挑战:
- 搜索空间极大 :模拟器模拟了标准65m×105m足球场上的整个连续二维空间,且球员数量众多,构建队友和对手模型是一项极具挑战性的任务,这增加了设计有效搜索算法的难度。
- 决策周期内计算时间有限 :每个决策周期为100毫秒,考虑到网络延迟和其他必要的时间成本,智能体必须在70毫秒内做出决策,这使得将搜索深度扩展到满意水平成为一个巨大挑战。
2. MAXQ分层分解
WrightEagle团队基于马尔可夫决策过程(MDPs)框架,采用MAXQ分层结构和启发式近似在线规划技术。MAXQ技术将给定的MDP分解为一组按层次结构排列的子MDP,每个子MDP被视为一个独立的子任务。
给定层次结构,层次策略π被定义为每个子任务的策略集合π = {π0, π1, · · ·, πn},其中πi是从活跃状态到动作的映射πi : Si →Ai。策略π在状态s下对子任务Mi的投影价值函数V π(i, s),定义为在状态s下遵循策略π直到子任务Mi在其终端状态之一终止后的预期值。类似地,Qπ(i, s, a)
WrightEagle框架:2D足球模拟联赛决策方案
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



