24、多智能体学习方法:理性学习与强化学习解析

多智能体学习方法:理性学习与强化学习解析

1. 理性学习

理性学习,有时也被称为贝叶斯学习,它采用了与虚拟博弈相同的基于模型的通用方案,但允许玩家对对手的策略持有更丰富的信念。

1.1 理性学习的特点
  • 策略集更丰富 :对手的策略集不仅可以包含重复阶段博弈策略,还能涵盖重复博弈策略,如囚徒困境中的以牙还牙(TfT)策略。
  • 信念表达更灵活 :每个玩家对对手策略的信念可以用所有可能策略集上的任何概率分布来表示。

与虚拟博弈一样,每个玩家在游戏开始时都有一些先验信念,每一轮结束后,玩家使用贝叶斯更新来更新这些信念。假设 $S$ 是玩家 $i$ 认为对手可能采用的策略集,$H$ 是游戏的可能历史集,那么可以使用贝叶斯规则来表示玩家 $i$ 在观察到历史 $h \in H$ 的情况下,对手采用特定策略 $s \in S$ 的概率:
[P_i(s|h) = \frac{P_i(h|s)P_i(s)}{\sum_{s’ \in S} P_i(h|s’)P_i(s’)}]

1.2 囚徒困境示例

考虑两个玩家进行无限重复的囚徒困境游戏,假设每个玩家的先验信念支持集由策略 $g_1, g_2, \cdots, g_{\infty}$ 组成:
- $g_{\infty}$ 是触发策略,玩家从合作开始,如果对手在某一轮背叛,那么他在后续所有轮次都背叛。
- 对于 $T < \infty$,$g_T$ 在所有长度小于 $T$ 的历史上与 $g_{\infty}$ 一致,但从时间

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值