3、博弈论、验证与控制器综合的研究进展

博弈论、验证与控制器综合的研究进展

1 博弈论与验证中的纳什均衡

1.1 策略应用与公式满足性

在博弈论中,我们将某个结果应用到从初始状态 (v_{init}) 开始的每个博弈 (G[A]) 中。对于玩家 (A) 在 (G[A]) 中的对应强最优策略,我们记为 (\sigma_A)。我们来论证策略组合 (\sigma = (\sigma_A) {A \in P}) 的主要结果 (\rho) 为何满足公式 (\varPhi {NE})。假设 (\rho \not\models \varphi_A),通过反证法,假设沿着 (\rho) 路径上的某个访问顶点 (v)(在某个前缀 (\pi) 之后)不属于 (W_{[-A]})。根据证明开头提到的强确定性结果,这意味着顶点 (v) 属于 (W_A)。由于 (\sigma_A) 是强最优策略,在经过前缀 (\pi) 之后它仍然是最优的,因此在这个前缀之后它是获胜策略。特别地,因为 (\varphi_A) 与前缀无关,所以 (\rho) 也应该是获胜的,这就产生了矛盾,从而证明 (\rho \models \varPhi_{NE})。

1.2 计算纯纳什均衡的算法

通过结合相关命题的证明,有两种计算纯纳什均衡的方法:
- 方法一 :结合强最优和触发策略来计算。
- 方法二 :为每个 (A \in P) 计算集合 (W_{[-A]})(或者等价地计算 (W_A)),然后在博弈中计算满足公式 (\varPhi_{NE}) 的无限路径。例如,可以通过枚举可能的失败玩家集合,然后找到合适的最终周期性玩法来实

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值