博弈论——零和博弈

版权声明:本文为原创文章,未经博主允许不得用于商业用途。

基础知识

  • 零和博弈:在两名玩家的博弈中,满足$\forall a_1\in A_1,\forall a_2\in A_2,u_1(a_1,a_2)+u_2(a_1,a_2)=0 $即为零和博弈,即两名玩家的总收益为0。
  • 对于零和博弈可以只使用一个玩家的收益函数简化表示,即G={{1,2},{A1,A2},{u}}G=\{\{1,2\},\{A_1,A_2\},\{u\}\}G={{1,2},{A1,A2},{u}}

纯策略博弈

  • 在零和博弈中,两名玩家都不希望结果太坏,因此玩家i决策依据如下原则:max⁡ai∈Aimin⁡aj∈Ajui(ai,aj)\max\limits_{a_i\in A_i}\min\limits_{a_j\in A_j}u_i(a_i,a_j)aiAimaxajAjminui(ai,aj),即都在最坏策略下做出最好选择。
    • 由于总体收益为0,即max⁡a2u2=max⁡a2−u1=−min⁡a2u1\max\limits_{a_2}u_2=\max\limits_{a_2}-u_1=-\min\limits_{a_2}u_1a2maxu2=a2maxu1=a2minu1因此上述公式可以化为:
      • Player1:a1=argmax⁡a1∈A1min⁡a2∈A2u(a1,a2)a_1=arg\max\limits_{a_1\in A_1}\min\limits_{a_2\in A_2}u(a_1,a_2)a1=arga1A1maxa2A2minu(a1,a2)
      • Player2:a2=argmin⁡a2∈A2max⁡a1∈A1u(a1,a2)a_2=arg\min\limits_{a_2\in A_2}\max\limits_{a_1\in A_1}u(a_1,a_2)a2=arga2A2mina1A1maxu(a1,a2)
  • 最小化最大化定理:MinMax≥MaxMinMinMax\geq MaxMinMinMaxMaxMin
    • 可以用反证法,如果存在p=MinMax&lt;q=MaxMinp=MinMax&lt;q=MaxMinp=MinMax<q=MaxMin,设ppp为第i1i_1i1行第j1j_1j1列,qqq为第i2i_2i2行第j2j_2j2列,则p为第i1i_1i1行最大值,q为第j2j_2j2列最小值,因此u(i1,j2)≥q,u(i1,j2)≤p⇒p≥qu(i_1,j_2)\geq q,u(i_1,j_2)\leq p\Rightarrow p\geq qu(i1,j2)q,u(i1,j2)ppq,矛盾。
    • 因此纳什均衡存在的充要条件即MinMax=MaxMinMinMax=MaxMinMinMax=MaxMin
例题:

  • 对于Player1,argMin={(U,L),(U,M),(M,M),(D,M).(D,R)}argMin=\{(U,L),(U,M),(M,M),(D,M).(D,R)\}argMin={(U,L),(U,M),(M,M),(D,M).(D,R)},其中收益最大值点为(M,M),因此选择策略M。
  • 对于Player2,argMax={(L,D),(M,M),(R,U)}argMax=\{(L,D),(M,M),(R,U)\}argMax={(L,D),(M,M),(R,U)},当Player1收益最低点为(M,M),因此选择策略M。

综上纳什均衡点为(M,M)

混合策略零和博弈

在混合策略中,收益函数可以表示为U(p,q)=pMqT.p=(p1,...,pm)∈Δ1,q=(q1,...,qn)∈Δ2U(p,q)=pMq^T.p=(p_1,...,p_m)\in \Delta_1,q=(q_1,...,q_n)\in \Delta_2U(p,q)=pMqT.p=(p1,...,pm)Δ1,q=(q1,...,qn)Δ2,M为纯策略收益矩阵。

因此同样可以表示两玩家的策略:

  • Player1:p=argmax⁡p∈Δ1min⁡q∈Δ2u(p,q)p=arg\max\limits_{p\in \Delta_1}\min\limits_{q\in \Delta_2}u(p,q)p=argpΔ1maxqΔ2minu(p,q)
  • Player2:q=argmin⁡q∈Δ2max⁡p∈Δ1u(p,q)q=arg\min\limits_{q\in \Delta_2}\max\limits_{p\in \Delta_1}u(p,q)q=argqΔ2minpΔ1maxu(p,q)

极大极小定理同样适用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值