69、扩展式博弈:概念、均衡与求解方法

扩展式博弈:概念、均衡与求解方法

1. 博弈求解的计算难度与零和博弈

在博弈求解中,找到一个玩家偏离动机较小的解在计算上具有一定难度。目前已知的多项式时间算法,只能保证输出一个解,在这个解中,没有玩家能将其收益提高超过约 33%。如果愿意接受更高的运行时间,对于玩家数量固定的博弈,存在超多项式算法,能找到玩家偏离动机至多为 ε(任意常数 ε > 0)的策略组合。而对于零和博弈,可以高效地计算混合纳什均衡,这是通过线性规划对偶的方法,基于求解单个线性规划问题来实现的。

2. 扩展式博弈的引入

之前研究的博弈无法捕捉玩家顺序行动的情况,而在许多实际场景中,如棋盘游戏(国际象棋、围棋等)、谈判协议和公开叫价拍卖等,玩家会轮流行动,并在得知对手的决策后再做决定。为了分析这类博弈,我们引入扩展式博弈。

以一个简单的两人博弈为例,玩家 1 先行动,在 A 和 B 中选择;玩家 2 根据玩家 1 的选择,在 C 和 D 或者 E 和 F 中选择;游戏结束后,每个玩家根据最终状态获得相应的收益。例如,若玩家 1 选 A,玩家 2 选 C,他们的收益分别为 2 和 5。

扩展式博弈通常用有根树表示,根节点表示游戏开始,叶子节点表示游戏可能的结束。树的深度有限,但节点可能有无限的分支,对应玩家有无限的行动选择。树的内部节点表示游戏状态,在每个状态下,要么是某个玩家做决策,要么是有随机事件(如抛硬币)决定下一个状态,我们将后一种情况称为自然行动。

一个历史是从游戏开始的有效行动序列,即从根节点到树中某个节点的路径,空集也被视为有效历史。终端历史是结束于叶子节点的历史,它描述了游戏的一种可能玩法,终端历史和叶子节点一一对应。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值