版权声明:本文为原创文章,未经博主允许不得用于商业用途。
基础知识
- 零和博弈:在两名玩家的博弈中,满足$\forall a_1\in A_1,\forall a_2\in A_2,u_1(a_1,a_2)+u_2(a_1,a_2)=0 $即为零和博弈,即两名玩家的总收益为0。
- 对于零和博弈可以只使用一个玩家的收益函数简化表示,即G={{1,2},{A1,A2},{u}}G=\{\{1,2\},\{A_1,A_2\},\{u\}\}G={{1,2},{A1,A2},{u}}
纯策略博弈
- 在零和博弈中,两名玩家都不希望结果太坏,因此玩家i决策依据如下原则:maxai∈Aiminaj∈Ajui(ai,aj)\max\limits_{a_i\in A_i}\min\limits_{a_j\in A_j}u_i(a_i,a_j)ai∈Aimaxaj∈Ajminui(ai,aj),即都在最坏策略下做出最好选择。
- 由于总体收益为0,即maxa2u2=maxa2−u1=−mina2u1\max\limits_{a_2}u_2=\max\limits_{a_2}-u_1=-\min\limits_{a_2}u_1a2maxu2=a2max−u1=−a2minu1因此上述公式可以化为:
- Player1:a1=argmaxa1∈A1mina2∈A2u(a1,a2)a_1=arg\max\limits_{a_1\in A_1}\min\limits_{a_2\in A_2}u(a_1,a_2)a1=arga1∈A1maxa2∈A2minu(a1,a2)
- Player2:a2=argmina2∈A2maxa1∈A1u(a1,a2)a_2=arg\min\limits_{a_2\in A_2}\max\limits_{a_1\in A_1}u(a_1,a_2)a2=arga2∈A2mina1∈A1maxu(a1,a2)
- 由于总体收益为0,即maxa2u2=maxa2−u1=−mina2u1\max\limits_{a_2}u_2=\max\limits_{a_2}-u_1=-\min\limits_{a_2}u_1a2maxu2=a2max−u1=−a2minu1因此上述公式可以化为:
- 最小化最大化定理:MinMax≥MaxMinMinMax\geq MaxMinMinMax≥MaxMin
- 可以用反证法,如果存在p=MinMax<q=MaxMinp=MinMax<q=MaxMinp=MinMax<q=MaxMin,设ppp为第i1i_1i1行第j1j_1j1列,qqq为第i2i_2i2行第j2j_2j2列,则p为第i1i_1i1行最大值,q为第j2j_2j2列最小值,因此u(i1,j2)≥q,u(i1,j2)≤p⇒p≥qu(i_1,j_2)\geq q,u(i_1,j_2)\leq p\Rightarrow p\geq qu(i1,j2)≥q,u(i1,j2)≤p⇒p≥q,矛盾。
- 因此纳什均衡存在的充要条件即MinMax=MaxMinMinMax=MaxMinMinMax=MaxMin
例题:
- 对于Player1,argMin={(U,L),(U,M),(M,M),(D,M).(D,R)}argMin=\{(U,L),(U,M),(M,M),(D,M).(D,R)\}argMin={(U,L),(U,M),(M,M),(D,M).(D,R)},其中收益最大值点为(M,M),因此选择策略M。
- 对于Player2,argMax={(L,D),(M,M),(R,U)}argMax=\{(L,D),(M,M),(R,U)\}argMax={(L,D),(M,M),(R,U)},当Player1收益最低点为(M,M),因此选择策略M。
综上纳什均衡点为(M,M)
混合策略零和博弈
在混合策略中,收益函数可以表示为U(p,q)=pMqT.p=(p1,...,pm)∈Δ1,q=(q1,...,qn)∈Δ2U(p,q)=pMq^T.p=(p_1,...,p_m)\in \Delta_1,q=(q_1,...,q_n)\in \Delta_2U(p,q)=pMqT.p=(p1,...,pm)∈Δ1,q=(q1,...,qn)∈Δ2,M为纯策略收益矩阵。
因此同样可以表示两玩家的策略:
- Player1:p=argmaxp∈Δ1minq∈Δ2u(p,q)p=arg\max\limits_{p\in \Delta_1}\min\limits_{q\in \Delta_2}u(p,q)p=argp∈Δ1maxq∈Δ2minu(p,q)
- Player2:q=argminq∈Δ2maxp∈Δ1u(p,q)q=arg\min\limits_{q\in \Delta_2}\max\limits_{p\in \Delta_1}u(p,q)q=argq∈Δ2minp∈Δ1maxu(p,q)
极大极小定理同样适用。