扩展式博弈:概念、均衡与求解方法
1. 博弈求解的计算难度与零和博弈
在博弈求解中,找到一个玩家偏离动机较小的解在计算上具有一定难度。目前已知的多项式时间算法,只能保证输出一个解,在这个解中,没有玩家能将其收益提高超过约 33%。如果愿意接受更高的运行时间,对于玩家数量固定的博弈,存在超多项式算法,能找到玩家偏离动机至多为 ε(任意常数 ε > 0)的策略组合。而对于零和博弈,可以高效地计算混合纳什均衡,这是通过线性规划对偶的方法,基于求解单个线性规划问题来实现的。
2. 扩展式博弈的引入
之前研究的博弈无法捕捉玩家顺序行动的情况,而在许多实际场景中,如棋盘游戏(国际象棋、围棋等)、谈判协议和公开叫价拍卖等,玩家会轮流行动,并在得知对手的决策后再做决定。为了分析这类博弈,我们引入扩展式博弈。
以一个简单的两人博弈为例,玩家 1 先行动,在 A 和 B 中选择;玩家 2 根据玩家 1 的选择,在 C 和 D 或者 E 和 F 中选择;游戏结束后,每个玩家根据最终状态获得相应的收益。例如,若玩家 1 选 A,玩家 2 选 C,他们的收益分别为 2 和 5。
扩展式博弈通常用有根树表示,根节点表示游戏开始,叶子节点表示游戏可能的结束。树的深度有限,但节点可能有无限的分支,对应玩家有无限的行动选择。树的内部节点表示游戏状态,在每个状态下,要么是某个玩家做决策,要么是有随机事件(如抛硬币)决定下一个状态,我们将后一种情况称为自然行动。
一个历史是从游戏开始的有效行动序列,即从根节点到树中某个节点的路径,空集也被视为有效历史。终端历史是结束于叶子节点的历史,它描述了游戏的一种可能玩法,终端历史和叶子节点一一对应。
超级会员免费看
订阅专栏 解锁全文
88

被折叠的 条评论
为什么被折叠?



