Pommerman 游戏中智能体的研究与实践
1. 团队多样性与超参数调优
在 Pommerman 游戏里,团队成员间保持多样性似乎有助于提升表现。若失去多样性,队友间容易相互阻碍,最坏情况下甚至会导致队友自相残杀。对于开发强大的智能体团队而言,采用更系统的多智能体协调方法是很有意义且富有成果的方向。
1.1 超参数调优的自博弈方法
dypm 智能体有多个超参数,其最优值难以确定。部分超参数是考虑在 100 毫秒内做出决策的约束而设定的,其他则通过自博弈进行调整。具体操作如下:
1. 自博弈过程 :让一组 dypm 智能体与另一组 dypm 智能体对战,其中一组改变某个超参数的值。
2. 参数评估 :当某组的胜率显著高于另一组时,就认为对应超参数的值更优。
不过,这种自博弈确定的超参数值并非最优。dypm 智能体类别有限,该类别内的最优智能体在面对其他类别的 Pommerman 智能体时,表现未必出色。所以,自博弈只是非正式且适度地进行,同时还会将优化后的 dypm 智能体与默认的 Simple Agents 进行性能对比。
2. Navocado 智能体
2.1 简介
Navocado 智能体是基于 Advantage - Actor - Critic (A2C) 的智能体,由 Continual Match Based Training (COMBAT) 框架引导。持续学习能让智能体在多个任务中不断提升能力,引入 COMBAT 框架是为了适配 Pommerman 游戏的收集阶段和战斗阶段。该
超级会员免费看
订阅专栏 解锁全文
1280

被折叠的 条评论
为什么被折叠?



