多智能体系统算法与JADE框架组织角色编程
随机零和博弈与随机博弈分析
在多智能体系统的博弈场景中,随机零和博弈是一个重要的研究方向。对于随机零和博弈,涉及到多种算法,如Q、PHC、WoLF、MinimaxQ、FriendQ和JAL等。
- Q、PHC、WoLF :分析结果时需要考虑收益符号分布的所有16种情况。在7种情况下,当OP - Q选择其策略时,无论对手如何选择,双方收益均为正。但由于OP - Q的收益意味着对手的损失,对手会试图最小化OP - Q的奖励。在大多数情况(9/16)的最坏情况下,OP - Q会得到负奖励,因此平均奖励是一个较小的负数。
- MinimaxQ :采用混合策略,其平均奖励约为零。
- FriendQ :FriendQ的损失等于OP - Q的获胜。FriendQ会选择具有最小可能值D的策略。仅考虑24种收益排序情况以及OP - Q在此情况下将采取的策略,可计算出OP - Q在56%的情况下平均奖励为正,所以总体上OP - Q的平均奖励为正。
- JAL :其结果可与Q、PHC、WoLF以相同方式解释,但机制不同。
在随机博弈方面,图5展示了OP - Q、Q、FriendQ、JAL、PHC和WoLF之间竞赛的平均收益,结果是在1000场游戏(每场10000次迭代)中取平均值。
| 算法 | 平均奖励情况 |
|---|---|
超级会员免费看
订阅专栏 解锁全文
22

被折叠的 条评论
为什么被折叠?



