具有完美信息和少量随机位置的平均支付随机博弈的伪多项式算法
1. 引言
我们来探讨具有完美信息和平均支付的两人零和随机博弈。设有有向图 $G = (V, E)$,其顶点集 $V$ 被划分为三个子集 $V = V_B ∪ V_W ∪ V_R$,分别对应黑色、白色和随机位置,由两名玩家(黑色玩家为最小化者,白色玩家为最大化者)以及自然控制。同时,我们固定一个局部奖励函数 $r : E → Z$,并为所有从 $v ∈ V_R$ 出发的弧 $(v, u)$ 设定概率 $p(v, u)$。
顶点 $v ∈ V$ 和弧 $e ∈ E$ 分别被称为位置和移动。在位置 $v ∈ V_W$ 或 $v ∈ V_B$ 中,相应的玩家(白色或黑色)选择一条弧 $(v, u)$;而在随机位置 $v ∈ V_R$ 中,移动 $(v, u)$ 以给定概率 $p(v, u)$ 被选择。从给定的初始位置 $v_0 ∈ V$ 开始,游戏会产生一个无限游走(称为一局游戏)。白色玩家的目标是最大化极限平均支付:
[c = \liminf_{n→∞} \frac{\sum_{i = 0}^{n} b_i}{n + 1}]
其中 $b_i$ 是游戏第 $i$ 步产生的期望奖励,而黑色玩家的目标则相反,即最小化 $c$。
这类博弈有多种特殊情况:
- 当 $V_R = ∅$ 时,即所谓的 BW - 博弈,也被称为循环或平均支付博弈。
- 当 $V_W = V_R = ∅$ 时,BWR - 博弈可简化为最小平均循环问题。
- 当 $V_B$ 或 $V_W$ 其中一个为空时,我们得到一个马尔可夫决策过程(MDP),它可以表示为一个线性规划。
- 当 $V_B = V_W
BWR-博弈的伪多项式算法
超级会员免费看
订阅专栏 解锁全文
237

被折叠的 条评论
为什么被折叠?



