双人零和博弈(two player zero-sum game)的性质

双人零和博弈中,行玩家目标是max_x(xRy),列玩家目标是min_y(xRy)。纳什均衡具有可交换性,所有NE的payoff相同。通过上下界统一保证,可以使用线性规划在多项式时间内求解NE。算法确保行玩家面对任意策略时收益大于等于NE的值V,且列玩家策略满足V的下界。

reference: https://www.tau.ac.il/~mansour/course_games/scribe/lecture4.pdf

双人零和博弈是指两个参与者的支付在任意情况下和为0的博弈。假设行玩家的策略为x,列玩家的策略为y,那么行玩家的目标应为max_x(xRy),而列玩家的目标为max_y (x-Ry),即min_y(xRy),因此,零和博弈的本质是优化的minmax问题

双人零和博弈的纳什均衡有下列若干性质:

  1. 可交换性:假设博弈⟨G,π⟩\lang G,\pi\rangG,π有NE:(γ1,γ2)(\gamma_1,\gamma_2)(γ1,γ2)(σ1,σ2)(\sigma_1,\sigma_2)(σ1,σ2),那么(γ1,σ2),(σ1,γ2)(\gamma_1,\sigma_2),(\sigma_1,\gamma_2)(γ1,σ2),(σ1,γ2)也是NE,且π(γ1,γ2)=π(σ1,σ2)=π(γ1,σ2)=π(σ1,γ2)\pi(\gamma_1,\gamma_2)=\pi(\sigma_1,\sigma_2)=\pi(\gamma_1,\sigma_2)=\pi(\sigma_1,\gamma_2)π(γ1,γ2)=π(σ1,σ2)=π(γ1,σ2)=π(σ1,γ2)

    证明:根据NE的性质:π(γ1,γ2)≥π(σ1,γ2)≥π(σ1,σ2)\pi(\gamma_1,\gamma_2)\geq\pi(\sigma_1,\gamma_2)\geq \pi(\sigma_1,\sigma_2)π(γ1,γ2)π(σ1,γ2)π(σ1,σ2),同理,π(γ1,γ2)≤π(γ1,σ2)≤π(σ1,σ2)\pi(\gamma_1,\gamma_2)\leq\pi(\gamma_1,\sigma_2)\leq \pi(\sigma_1,\sigma_2)π(γ1,γ2)π(γ1,σ2)π(σ1,σ2),从而可知这些策略的payoff是一样的,从而由NE的定义,(γ1,σ2),(σ1,γ2)(\gamma_1,\sigma_2),(\sigma_1,\gamma_2)(γ1,σ2),(σ1,γ2)同样使得两人不会偏离当前策略,因此也是NE。

    推论:如果定义行玩家的均衡策略集合为S1={σ1∈A1∣∃σ2∈A2,(σ1,σ2)is an eq. pt.}S_1=\{\sigma_1\in A_1|\exists \sigma_2\in A_2,(\sigma_1,\sigma_2)\text{is an eq. pt.}\}S1={σ1A1∣∃σ2A2,(σ1,σ2)is an eq. pt.},那么该博弈的所有NE可以表示为S1×S2S_1\times S_2S1×S2,并且任意两个NE的payoff均相同。下一个定理刻画了应当如何求这个payoff

  2. 上下界统一保证:如果博弈为normal form,行玩家的支付由矩阵A表示,则显然行玩家的收益的下界为max⁡xmin⁡yxTAy=max⁡xmin⁡j∑xiaij\max_x \min_yx^TAy=\max_x \min_j\sum x_ia_{ij}maxxminyxTAy=maxxminjxiaij,上界为min⁡ymax⁡i∑yjaij\min_y \max_i \sum y_j a_{ij}minymaxiyjaij. 根据Minmax Theorem,事实上可以证明这两个界的值是相等的,进而提示我们使用线性规划求解NE的方法:

    证明:引理:凸集分离定理:假设convex set B⊂Rd,x⃗∉B\text{convex set }B\subset R^d,\vec{x}\notin Bconvex set BRd,x/B,则存在α∈Rd\alpha\in R^dαRdaaa,使得α⃗⋅x⃗=a<α⃗⋅y⃗,∀y⃗∈B\vec{\alpha}\cdot\vec{x}=a<\vec{\alpha}\cdot \vec{y},\forall \vec{y}\in Bαx=a<αy,yB,亦即,凸集B和x⃗\vec{x}x被超平面α⃗⋅t⃗=a\vec{\alpha}\cdot \vec{t}=aαt=a分离

    引理:A为m*n维矩阵,m个n维行向量记为ai⃗\vec{a_i}ai,则下列二者之一成立:

    1. 0⃗\vec{0}0位于ai⃗∪ei⃗\vec{a_i}\cup \vec{e_i}aiei共n+m个n维向量构成的凸包中 2. 存在一个向量x⃗∈Δn\vec{x}\in \Delta^nxΔn,使得ai⃗⋅x⃗>0\vec{a_i}\cdot \vec{x}>0aix>0

    Pf:对0和这些向量的凸包使用凸集分离定理即可

    回原:考虑上面引理的两种情况:

    情况1:则存在和为1的非负实数s1,...,sn+ms_1,...,s_{n+m}s1,...,sn+m,使得∑j=1naijsj+sn+i=0,∀1≤i≤m\sum_{j=1}^n a_{ij}s_j+s_{n+i}=0,\forall 1\leq i\leq mj=1naijsj+sn+i=0,∀1im. 显然,s1,...,sns_1,...,s_ns1,...,sn不全为0,从而定义n维向量yˉ\bar{y}yˉyˉi=si/∑i=1nsi\bar{y}_i=s_i/\sum_{i=1}^ns_iyˉi=si/i=1nsi,则y⃗∈Δn\vec{y}\in \Delta^nyΔn,且∑jaijyˉj≤0,∀i\sum_j a_{ij}\bar{y}_j\leq 0,\forall ijaijyˉj0,i,从而,结果的上界min⁡ymax⁡i∑yjaij≤max⁡i∑yˉjaij≤0\min_y \max_i \sum y_j a_{ij}\leq \max_i \sum \bar{y}_ja_{ij}\leq 0minymaxiyjaijmaxiyˉjaij0,从而有算法结果的上下界结果均小于等于0

    情况2:同理,可以存在xˉ⃗\vec{\bar{x}}xˉ,使得结果的下界大于等于0,从而上下界结果均大于等于0

    从而, 我们证明了对于0,算法的上下界在其同侧。同理,对任意的常数c,定义矩阵B=A-c,使用上面的结论,则显然算法的上下界对任意常数c也在同侧,从而上下界的值必须相等,命题得证!

    推论:由上,显然这个博弈的任意NE的值必须等于这个上下界的值,称为value of the game,简记为V

  3. 算法:行玩家的任意策略x若满足∀j,∑ixiaij≥V\forall j, \sum_i x_i a_{ij}\geq Vj,ixiaijV,则其对行玩家是最优的,因为根据V的定义,这保证了行玩家在面对列玩家的任意策略组合时都能获得大于等于V的收益;而且由于V的上界性,不可能存在更好的界了;同理,列玩家的任何策略y若满足∀i,∑iyjaij≤V\forall i, \sum_i y_j a_{ij}\leq Vi,iyjaijV,则也是最优的。这样的策略(x,y)显然满足xTAy=Vx^T Ay=VxTAy=V并且构成一个NE,并且推导出一个计算行玩家策略的算法:
    ∀1≤j≤n,∑i=1mxiaij−V≥0∀1≤i≤mxi≥0∑i=1mxi=1 Maximize target function V \begin{array}{lcl} \forall 1 \leq j \leq n, & \sum_{i=1}^{m} x_{i} a_{i j}-V & \geq 0 \\ \forall 1 \leq i \leq m & x_{i} & \geq 0 \\ & \sum_{i=1}^{m} x_{i} & =1 \\ & \text { Maximize target function } & V \end{array} ∀1jn,∀1imi=1mxiaijVxii=1mxi Maximize target function 00=1V
    由上,其对偶算法计算了列玩家的策略:
    ∀1≤j≤m,∑i=1nyiaji−V≤0∀1≤i≤nyi≥0∑i=1nyi=1 Minimize target function V \begin{array}{lcl} \forall 1 \leq j \leq m, & \sum_{i=1}^{n} y_{i} a_{j i}-V & \leq 0 \\ \forall 1 \leq i \leq n & y_{i} & \geq 0 \\ & \sum_{i=1}^n y_{i} & =1 \\ & \text { Minimize target function } & V \end{array} ∀1jm,∀1ini=1nyiajiVyii=1nyi Minimize target function 00=1V
    显然,由于线性规划是多项式时间的算法,因此计算零和博弈的NE也是多项式时间的。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值