版权声明:本文为原创文章,未经博主允许不得用于商业用途。
在单次博弈模型中,除了相关均衡外,一般纳什均衡点只能保证不会获得最坏的情况,而都不是整体最优解。比较明显的例子为囚徒困境问题,显然最佳策略应该为都不坦白,这样两人都会无罪释放,不过纳什均衡点确是都选择坦白减刑。
重复博弈可以一定程度上解决这个问题,在重复博弈中,玩家的目的从当前收益最大化转变为在多次博弈中利益最大化,因此就可能会选择合作策略获得长远来看的更大收益。
基本概念
-
重复博弈GT(δ)G^T(\delta)GT(δ)中,G={N,{Ai},{ui}}G=\{N,\{A_i\},\{u_i\}\}G={N,{Ai},{ui}}
- 重复次数T:t=1,2,...Tt=1,2,...Tt=1,2,...T为当前的次数
-
博弈结果:at=(a1t,a2t,...aNt)a^t=(a^t_1,a^t_2,...a^t_N)at=(a1t,a2t,...aNt)为第i次博弈中的策略
-
贴现因子(discount factor):定义参数δ∈[0,1]\delta \in [0,1]δ∈[0,1]为贴现因子控制收益随时间的削减速度,也可以理解为玩家的耐心程度。
- 重复博弈的收益遵从"Today’s $1 payoff is more valuable than tomorrow’s $1"准则,即主观的收益会随着时间指数削减。
-
收益函数ui=ui(a1)+δui(a2)+δ2ui(a3)+...+δT−1ui(aT)=∑tδt−1ui(at)u_i=u_i(a^1)+\delta u_i(a^2)+\delta^2 u_i(a^3)+...+\delta^{T-1}u_i(a^T)=\sum_t\delta^{t-1}u_i(a^t)ui=ui(a1)+δui(a2)+δ2ui(a3)+...+δT−1ui(aT)=∑tδt−1ui(at)
-
历史:若规定一次博弈策略集为Σ\SigmaΣ,则t次博弈的历史集合为Ht=ΣtH_t=\Sigma^tHt=Σt,ht∈Hth_t\in H_tht∈Ht为其中一种历史。
-
重复博弈其实可以看作一个特殊的扩展式博弈,每层为一次博弈过程。因此同样具有SPNE,定义为在当前历史hth_tht条件下的纳什均衡。
- 定理:对于有穷重复博弈,如果G有纯策略纳什均衡a*,则每次博弈都有唯一的SPNE(a*,a*,…)
-
若一个玩家退出合作策略,其他玩家也会终止合作
-
Folk Theorem:对于GT(δ)G^T(\delta)GT(δ),GGG的纳什均衡为a∗=(a1∗,a2∗,...,aN∗)a^*=(a^*_1,a^*_2,...,a^*_N)a∗=(a1∗,a2∗,...,aN∗),收益为u∗=(u1∗,u2∗,...,uN∗)u^*=(u^*_1,u^*_2,...,u^*_N)u∗=(u1∗,u2∗,...,uN∗)。若存在策略a^=(a1^,a2^,...,aN^)\hat{a}=(\hat{a_1},\hat{a_2},...,\hat{a_N})a^=(a1^,a2^,...,aN^),使得对于每位玩家,a^\hat{a}a^收益高于a∗a^*a∗,则存在贴现因子使得重复选择策略a^\hat{a}a^可以达到SPNE
- 触发策略(Trigger Strategies):若ht=(a^,a^,...a^)h_t=(\hat{a},\hat{a},...\hat{a})ht=(a^,a^,...a^),则st=a^s^{t}=\hat{a}st=a^,否则st=a∗s^t=a^*st=a∗。即发生一次背叛后就永远不再合作。
- 由于a^\hat{a}a^不是纳什均衡策略,因此一定存在某一玩家拥有单次博弈中更高收益的策略,这也是背叛的来源。
- 在多玩家重复博弈中,选择玩家中合作时贴现因子最小值的最大值作为整体的贴现因子下界。
-
在有些情况下会选择原谅模型,即惩罚n轮后恢复合作状态。
例题1:
无限次囚徒困境:
重复进行无限次囚徒困境博弈,收益矩阵为:[(0,0)(2,−1)(−1,2)(1,1)]\left[ \begin{array}{cc} (0,0) & (2,-1)\\ (-1,2) & (1,1) \end{array} \right ][(0,0)(−1,2)(2,−1)(1,1)]
- 如果两玩家都选择不坦白,即S={(d,d),(d,d),...}S=\{(d,d),(d,d),...\}S={(d,d),(d,d),...},则收益U=1+δ+δ2+...=11−δU=1+\delta +\delta^2 +...=\frac{1}{1-\delta}U=1+δ+δ2+...=1−δ1
- 如果一人在t次博弈中坦白,则以后他们不再合作,U=1+δ+...+δt−1+2δt+0+0...=U=1+\delta +...+\delta^{t-1}+2\delta^t+0+0...=U=1+δ+...+δt−1+2δt+0+0...=,因此在第一次即坦白时收益最大,为2
综上,当δ>1/2\delta>1/2δ>1/2时(耐心更大时),11−δ\frac{1}{1-\delta}1−δ1>2,此时一直合作可以达到SPNE,否则双方将选择一直坦白。
例题2:
Bertrand Model(伯特兰德模型):
两家公司有相同的边际成本c,且定价pi∈{1,2,...,c,...,9,10}p_i\in\{1,2,...,c,...,9,10\}pi∈{1,2,...,c,...,9,10},市场需求为1,收益函数为:u1(p1,p2)={p1−cp1<p2(p1−c)/2p1=p20p1>p2u_1(p_1,p_2)= \left\{\begin{array}{cc} p_1-c & p_1<p_2\\ (p_1-c)/2 & p_1=p_2\\0 & p_1>p_2 \end{array} \right .u1(p1,p2)=⎩⎨⎧p1−c(p1−c)/20p1<p2p1=p2p1>p2
显然单次博弈的纳什均衡点为(c,c),此时双方收益都为0。假定一方退出合作后双方都会不再合作。
合作模式下的最佳收益策略为(10,10)。则:
- 合作模式下收益为:U=(10−c)/2×11−δU=(10-c)/2\times\frac{1}{1-\delta}U=(10−c)/2×1−δ1
- 假设玩家1在t时开始拒绝合作,此时其收益为p1−cp_1-cp1−c,因此最佳策略为9,接下来双方都会选择c。因此收益函数为:U∗=(10−c)/2×(1+δ+...+δt−1)+δt(9−c)U^*=(10-c)/2\times(1+\delta+...+\delta^{t-1})+\delta^t(9-c)U∗=(10−c)/2×(1+δ+...+δt−1)+δt(9−c)
若U∗≤UU^*\leq UU∗≤U,则U∗−U≤0U*-U\leq 0U∗−U≤0,即δt(9−c)≤(10−c)/2×(δt+δt+1+...)⇔9−c≤(10−c)/2×(1+δ+δ2+...)=(10−c)/2×11−δ\delta^t(9-c)\leq (10-c)/2\times(\delta^t+\delta^{t+1}+...)\Leftrightarrow9-c\leq(10-c)/2\times(1+\delta+\delta^2+...)=(10-c)/2\times\frac{1}{1-\delta}δt(9−c)≤(10−c)/2×(δt+δt+1+...)⇔9−c≤(10−c)/2×(1+δ+δ2+...)=(10−c)/2×1−δ1
解得:δ≥8−c18−2c\delta\geq\frac{8-c}{18-2c}δ≥18−2c8−c