2018年NeurIPS上的AI竞赛亮点:Pommerman与AI驾驶奥运会
在人工智能领域,竞赛是推动技术发展、验证算法有效性的重要途径。2018年NeurIPS会议上的Pommerman竞赛和AI Driving Olympics(AI-DO)竞赛就展现了多智能体学习和移动机器人领域的最新进展。
Pommerman竞赛中的奖励函数优化
Pommerman是一个多智能体游戏平台,在2018年的竞赛中,为了实现更准确的信用分配,研究人员探索了新的奖励函数。以下是一些关键要点:
- 信用分配的关键信息
1. 炸弹所有者的信息。
2. 炸弹踢动者的信息。
3. 对于每个事件(如木材破坏、敌人死亡或队友死亡),确定奖励或惩罚哪个智能体可以基于对相应爆炸炸弹负责的智能体。
- 新奖励函数的实现 :竞赛结束后,研究人员开发了一种新的奖励函数。当事件发生(如一个敌人或队友消失)时,不再给所有剩余智能体正或负奖励,而是追踪火焰找到爆炸炸弹的源头(尽管由于棋盘上存在雾区,有时这是不可能的),并只给放置该炸弹的智能体分配奖励。
- 效果验证 :通过对比实验,新奖励函数实现了更准确的信用分配,从而取得了更好的学习效果。
下面是新旧奖励函数学习曲线对比表格:
| 迭代次数 | 与静态团队对战胜率(原始奖励) | 与静态团队对战胜率(新奖励) |
| ---- | ---- | ---- |
| 0 | 0 | 0 |
| 500 | 20 | 40 |
| 1000 | 40 |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



