双人零和博弈（two player zero-sum game）的性质

最新推荐文章于 2024-03-31 23:04:04 发布

原创最新推荐文章于 2024-03-31 23:04:04 发布 · 3.1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

学习笔记专栏收录该内容

43 篇文章

订阅专栏

双人零和博弈中，行玩家目标是max_x(xRy)，列玩家目标是min_y(xRy)。纳什均衡具有可交换性，所有NE的payoff相同。通过上下界统一保证，可以使用线性规划在多项式时间内求解NE。算法确保行玩家面对任意策略时收益大于等于NE的值V，且列玩家策略满足V的下界。

reference: https://www.tau.ac.il/~mansour/course_games/scribe/lecture4.pdf

双人零和博弈是指两个参与者的支付在任意情况下和为0的博弈。假设行玩家的策略为x，列玩家的策略为y，那么行玩家的目标应为max_x（xRy），而列玩家的目标为max_y (x-Ry)，即min_y(xRy)，因此，零和博弈的本质是优化的minmax问题

双人零和博弈的纳什均衡有下列若干性质：

可交换性：假设博弈 $⟨G,π⟩\lang G,\pi\rang$ 有NE： $(γ1,γ2)(\gamma_1,\gamma_2)$ 和 $(σ1,σ2)(\sigma_1,\sigma_2)$ ，那么 $(γ1,σ2),(σ1,γ2)(\gamma_1,\sigma_2),(\sigma_1,\gamma_2)$ 也是NE，且 $π(γ1,γ2)=π(σ1,σ2)=π(γ1,σ2)=π(σ1,γ2)\pi(\gamma_1,\gamma_2)=\pi(\sigma_1,\sigma_2)=\pi(\gamma_1,\sigma_2)=\pi(\sigma_1,\gamma_2)$

证明：根据NE的性质： $π(γ1,γ2)≥π(σ1,γ2)≥π(σ1,σ2)\pi(\gamma_1,\gamma_2)\geq\pi(\sigma_1,\gamma_2)\geq \pi(\sigma_1,\sigma_2)$ ，同理， $π(γ1,γ2)≤π(γ1,σ2)≤π(σ1,σ2)\pi(\gamma_1,\gamma_2)\leq\pi(\gamma_1,\sigma_2)\leq \pi(\sigma_1,\sigma_2)$ ，从而可知这些策略的payoff是一样的，从而由NE的定义， $(γ1,σ2),(σ1,γ2)(\gamma_1,\sigma_2),(\sigma_1,\gamma_2)$ 同样使得两人不会偏离当前策略，因此也是NE。

推论：如果定义行玩家的均衡策略集合为 $pt.}S_1=\{\sigma_1\in A_1|\exists \sigma_2\in A_2,(\sigma_1,\sigma_2)\text{is an eq. pt.}\}$ ，那么该博弈的所有NE可以表示为 $S1×S2S_1\times S_2$ ，并且任意两个NE的payoff均相同。下一个定理刻画了应当如何求这个payoff
上下界统一保证：如果博弈为normal form，行玩家的支付由矩阵A表示，则显然行玩家的收益的下界为 $max⁡xmin⁡yxTAy=max⁡xmin⁡j∑xiaij\max_x \min_yx^TAy=\max_x \min_j\sum x_ia_{ij}$ ，上界为 $min⁡ymax⁡i∑yjaij\min_y \max_i \sum y_j a_{ij}$ . 根据Minmax Theorem，事实上可以证明这两个界的值是相等的，进而提示我们使用线性规划求解NE的方法：

证明：引理：凸集分离定理：假设 $B⊂Rd,x⃗∉B\text{convex set }B\subset R^d,\vec{x}\notin B$ ，则存在 $α∈Rd\alpha\in R^d$ 和 $a$ ，使得 $α⃗⋅x⃗=a<α⃗⋅y⃗,∀y⃗∈B\vec{\alpha}\cdot\vec{x}=a<\vec{\alpha}\cdot \vec{y},\forall \vec{y}\in B$ ，亦即，凸集B和 $x⃗\vec{x}$ 被超平面 $α⃗⋅t⃗=a\vec{\alpha}\cdot \vec{t}=a$ 分离

引理：A为m*n维矩阵，m个n维行向量记为 $ai⃗\vec{a_i}$ ，则下列二者之一成立：
1. $0⃗\vec{0}$ 位于 $ai⃗∪ei⃗\vec{a_i}\cup \vec{e_i}$ 共n+m个n维向量构成的凸包中 2. 存在一个向量 $x⃗∈Δn\vec{x}\in \Delta^n$ ，使得 $ai⃗⋅x⃗>0\vec{a_i}\cdot \vec{x}>0$
Pf：对0和这些向量的凸包使用凸集分离定理即可

回原：考虑上面引理的两种情况：

情况1：则存在和为1的非负实数 $s_1,...,s_{n+m}$ ，使得 $∑j=1naijsj+sn+i=0,∀1≤i≤m\sum_{j=1}^n a_{ij}s_j+s_{n+i}=0,\forall 1\leq i\leq m$ . 显然， $s_1,...,s_n$ 不全为0，从而定义n维向量 $yˉ\bar{y}$ ： $yˉi=si/∑i=1nsi\bar{y}_i=s_i/\sum_{i=1}^ns_i$ ，则 $y⃗∈Δn\vec{y}\in \Delta^n$ ，且 $∑jaijyˉj≤0,∀i\sum_j a_{ij}\bar{y}_j\leq 0,\forall i$ ，从而，结果的上界 $min⁡ymax⁡i∑yjaij≤max⁡i∑yˉjaij≤0\min_y \max_i \sum y_j a_{ij}\leq \max_i \sum \bar{y}_ja_{ij}\leq 0$ ，从而有算法结果的上下界结果均小于等于0

情况2：同理，可以存在 $xˉ⃗\vec{\bar{x}}$ ，使得结果的下界大于等于0，从而上下界结果均大于等于0

从而，我们证明了对于0，算法的上下界在其同侧。同理，对任意的常数c，定义矩阵B=A-c，使用上面的结论，则显然算法的上下界对任意常数c也在同侧，从而上下界的值必须相等，命题得证！

推论：由上，显然这个博弈的任意NE的值必须等于这个上下界的值，称为value of the game，简记为V
算法：行玩家的任意策略x若满足 $∀j,∑ixiaij≥V\forall j, \sum_i x_i a_{ij}\geq V$ ，则其对行玩家是最优的，因为根据V的定义，这保证了行玩家在面对列玩家的任意策略组合时都能获得大于等于V的收益；而且由于V的上界性，不可能存在更好的界了；同理，列玩家的任何策略y若满足 $∀i,∑iyjaij≤V\forall i, \sum_i y_j a_{ij}\leq V$ ，则也是最优的。这样的策略(x,y)显然满足 $x^T Ay=V$ 并且构成一个NE，并且推导出一个计算行玩家策略的算法：
$\begin{array}{lcl} \forall 1 \leq j \leq n, & \sum_{i=1}^{m} x_{i} a_{i j}-V & \geq 0 \\ \forall 1 \leq i \leq m & x_{i} & \geq 0 \\ & \sum_{i=1}^{m} x_{i} & =1 \\ & \text { Maximize target function } & V \end{array}$
由上，其对偶算法计算了列玩家的策略：
$\begin{array}{lcl} \forall 1 \leq j \leq m, & \sum_{i=1}^{n} y_{i} a_{j i}-V & \leq 0 \\ \forall 1 \leq i \leq n & y_{i} & \geq 0 \\ & \sum_{i=1}^n y_{i} & =1 \\ & \text { Minimize target function } & V \end{array}$
显然，由于线性规划是多项式时间的算法，因此计算零和博弈的NE也是多项式时间的。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。