多智能体学习方法:理性学习与强化学习解析
1. 理性学习
理性学习,有时也被称为贝叶斯学习,它采用了与虚拟博弈相同的基于模型的通用方案,但允许玩家对对手的策略持有更丰富的信念。
1.1 理性学习的特点
- 策略集更丰富 :对手的策略集不仅可以包含重复阶段博弈策略,还能涵盖重复博弈策略,如囚徒困境中的以牙还牙(TfT)策略。
- 信念表达更灵活 :每个玩家对对手策略的信念可以用所有可能策略集上的任何概率分布来表示。
与虚拟博弈一样,每个玩家在游戏开始时都有一些先验信念,每一轮结束后,玩家使用贝叶斯更新来更新这些信念。假设 $S$ 是玩家 $i$ 认为对手可能采用的策略集,$H$ 是游戏的可能历史集,那么可以使用贝叶斯规则来表示玩家 $i$ 在观察到历史 $h \in H$ 的情况下,对手采用特定策略 $s \in S$ 的概率:
[P_i(s|h) = \frac{P_i(h|s)P_i(s)}{\sum_{s’ \in S} P_i(h|s’)P_i(s’)}]
1.2 囚徒困境示例
考虑两个玩家进行无限重复的囚徒困境游戏,假设每个玩家的先验信念支持集由策略 $g_1, g_2, \cdots, g_{\infty}$ 组成:
- $g_{\infty}$ 是触发策略,玩家从合作开始,如果对手在某一轮背叛,那么他在后续所有轮次都背叛。
- 对于 $T < \infty$,$g_T$ 在所有长度小于 $T$ 的历史上与 $g_{\infty}$ 一致,但从时间
超级会员免费看
订阅专栏 解锁全文
42

被折叠的 条评论
为什么被折叠?



