博弈论
什么是博弈论
博弈论是这样一个过程:它是个人或团体在一定规则约束下,依据各自掌握的关于别人选择的行为或策略,决定自身选择的行为或策略的收益过程。
博弈论的术语
-
参与人:理性选择的主体。
-
信息:参与者有关博弈的知识。
-
行动:参与者能够选择的变量。
-
策略:参与者在行动之前所准备好的一套完整的行动方案。
-
损益:参与者的得与失。
-
结局:所有参与者选择各自策略的后果。
-
均衡:所有参与者的最优策略组合。
-
博弈的规则:参与者、行动和结果合起来称为博弈的规则。
基本假设
认知理性
-
人是自我利益的判断者。
-
偏好的完备性。
-
偏好的传递性。
-
中庸之道。
行为理性
-
自我利益的追求者。
-
利益最大化。
共同知识
指各参与者在无穷递归意义上均知悉的事实。即每个人知道事件E,每个人知道每个人知道事件E,每个人知道每个人知道每个人知道事件E,一直到无穷层次。
知识的三要素:
-
人们了解的事实对象要是真的,假的事实不能成为知识;
-
某个人知道这个真的事实;
-
第三,人们要相信他所知道的事实。
博弈的分类
合作博弈和非合作博弈
根据博弈中的参与者是否达成一个具有约束力的协议来划分。当相互作用的局中人就博弈过程制定了一个具有约束力的协议时,这个博弈就是合作博弈。反之,当博弈过程中没有这个协议时,则称为非合作博弈。
静态博弈和动态博弈
根据局中人行为的时间序列性来划分。静态博弈指的是局中人同时选择所要采取何种行动的博弈,或者在博弈过程中后做出选择的人不清楚先选择的人的策略而做出行动的博弈。动态博弈指的是局中人的行动有先后顺序,且后做出选择的人知道先做出选择之人的行动。
完全信息博弈与不完全信息博弈
完全信息博弈指每位参与者都能准确地知道所有其他参与者的信息。不完全信息博弈指每位参与者对所有其他参与者的信息不够了解,或者无法对其他每一位参与者的信息都有准确了解。
纯策略和混合策略
纯策略:如果一个策略要求参与者在每一个给定的信息情况下选择一种特定的行动。
混合策略:如果一个策略要求参与者在给定信息情况下以某种概率分布随机地选择不同的行动。
博弈论定律
零和博弈
零和博弈指收入与损失之和为0的博弈。比如,两人对弈,胜者加一分,负者减一分,分出胜负后分数总和为0。现实生活中又很多零和博弈的情形,显然,比零和博弈更好的局面是“双赢”。但是从零和博弈游戏走向双赢是一个比较复杂的过程,不仅需要参与竞争的双方真诚合作,还需要遵守整个“游戏”的规则,才有可能出现双赢的局面,若是不遵守这种规则,最后承担风险的还是参与者自身。
重复博弈
重复博弈指同种赛局或者结构不断进行重复,甚至无限次进行重复,而重复博弈中的每次博弈被称为“阶段博弈”。简而言之,在上一次“阶段博弈”后,前一阶段参与者的实际行动可以被下一阶段博弈的参与者看到,属于动态博弈。重复博弈可以总结出三个特征:第一,在进行重复博弈的过程中并没有“物质”上的关联,简言之就是上一个阶段所进行的博弈,并不会改变接下来所要进行的博弈结构。第二,在进行重复博弈的每个阶段,所有的参与者都能够看到前面的参与者所做出的决策。第三,对于参与重复博弈的参与者而言,他们所获得的收益是在每个阶段所获得收益的加权平均数。由此一来,重复博弈的结果便会取决于博弈所进行的总次数,而这个总次数又会影响到最终博弈均衡的结果。
囚徒困境
坦白 | 撒谎 | |
---|---|---|
坦白 | 3:3 | 0:5 |
撒谎 | 5:0 | 0.5:0.5 |
囚徒困境表示在某种情况下,那些有利于个人利益的选择,相对于团体而言并非有益处。显然,都选择撒谎对于团队来说更有利。然而,当个体进行抉择时,无论对方选择坦白还是撒谎,永远是选择坦白更有利。事实上,囚徒困境仅发生一次和多次的结果是不同的。假设囚徒困境是重复进行的,那么博弈便会在其中不断重复进行,这时所有的参与者都可以做出决策去“惩罚”前面那些不愿意参与到合作中的 人,在这种情况下,便会产生所有的参与者想要合作的局面。那些参与此次重复博弈的人,便会主动放弃自身欺骗的动机或者行为,导致 所有的参与者的决策都向合作靠拢,最终经过反复博弈后,所有的参与者极有可能从最初的互相猜忌转变为相互信任。
智猪博弈
大 | 小 | |
---|---|---|
大先 | 9 | 1 |
一起 | 7 | 3 |
小先 | 6 | 4 |
跑去按按钮消耗2。对于大猪来说,当小猪不去按按钮,大猪不去按按钮则收益为0,去按按钮的收益为4.大猪会选择去按按钮。当小猪去按按钮时,大猪不去按按钮的收益最高,则大猪不会去按按钮。对于小猪来说,当大猪不去按按钮时,小猪不去按按钮的收益为 0,但是小猪去按按钮 的收益为-1,小猪不会选择去按按钮。当大猪去按按钮时,小猪不去按按钮的收益最高。所以,无论如何,小猪都不会去 按按钮。那么综合来说,当两只猪都足够理性的情况下,会出现的情况是大猪去按按钮,小猪不去按按钮。
斗鸡博弈
进 | 退 | |
---|---|---|
进 | -3,-3 | 1,-1 |
退 | -1,1 | 0,0 |
斗鸡博弈(Chicken Game)这个名词其实是一种翻译失误的产物,在美国口语中Chicken的释义代表了“懦夫”,因此,它应该是“懦夫博弈”。纳什平衡在一个博弈过程中,无论对方的策略选择如何,当事人一方都会选择某个确定的策略,则该策略被称作支配性策略。如果任意一位参与者在其他所有参与者的策略确定的情况下,其选择的策略是最优的,那么这个组合就被定义为纳什平衡。根据分析可知,斗鸡博弈存在(-1,1)与(1,-1)两个纳什均衡点任何一个博弈,若只有一个纳什均衡点,那么我们便能够轻易地预测出此博弈的结果,因为这个纳什均衡点就是已知的博弈的结果。反之,当一个博弈有多个纳什均衡点时,想要对博弈的结果做出预测,便需要我们了解其中的所有细节信息,诸如参与者究竟是哪一方选择了进,哪一方选择了退。根据这些额外的信息,我们才能对博弈结果做出判断。
猎鹿博弈
两个猎人,单独捕猎时,每个人可捕猎4只兔子,可以足够食用4天。合作捕猎时,可以捕猎1只鹿,可以足够两个人食用10天。显然,两个猎人合作的收益远远大于单独捕猎,但是这便需要两个猎人在合作的过程中,个人的能力和付出是相等的。假设两个人中的任何一个人捕猎能力较强,那么他便会要求分得更多的利益,同时这会使另外一个猎人考虑到自身的利益,而不愿意参加合作。那么将会出现两个人合作捕猎和都不去合作捕猎两个纳什均衡点。
蜈蚣博弈
A和B之间进行 有限次博弈(100次)。假设此次博弈双方的支付给定如下:
1、合作合作合作合作……合作合作 ABABAB(100,100)
2、合作合作合作合作……合作不合作 ABABAB(98,101)
选择合作继续进行博弈,当一个人选择不合作则终止博弈。当A进行第99次博弈时选择合作,B选择合作时A获得100,但是当B选择不合作时A获得98。B从自身利益出发,会选择不合作获得101。然而当A在第99次博弈时选择不合作,就会获得99。实际情况中,A与B在一开始就要考虑下一次是否为最后一次博弈。按照这种决策的选择情况进行推断,可以得出若是在进行博弈的第一步时A便选择了不合作,那么A和B所获得的最终收益都是1,这样的选择远远小于A选择合作时的收益。
酒吧博弈
酒吧博弈是在博弈论的基础上发展起来的一个博弈理论模型。喜欢去酒吧的人数为100人,酒吧的座位是60。人的舒适程度感觉是:去酒吧有座位>在家>去酒吧无座位。那么在实际情况中,就会出现人数波动。上一次去的人数少,那么下一次去的人数就会增多;上一次去的人数多,那么下一次取得人数就会减少。
枪手博弈
三个枪手甲乙丙之间互相有怨恨,以决斗的方式进行一场博弈。甲的命中率为80%,乙的命中率为60%,丙的命中率为40%,他们相互之间了解对方的实力。分为两种情况:1、三人同时开枪。2、丙先开枪,然后三个再同时开枪。
1、三人同时开枪
第一轮:
对于甲,最佳策略是先对准乙,然后对准丙。对于乙,最佳策略是先对准甲,然后对准丙。对于丙,最佳策略是先对准甲,再对准乙。
结果:
甲活的情况是乙和丙都未命中,概率为40%×60%=24%。丙活的情况是甲未命中,概率为20%。丙活的概率为100%。由此看出,丙的命中率最低,但存活率却最高。
第二轮:
若甲乙中只存活一人,则丙的存货率最低。若甲乙皆死,丙存活。若甲乙都存活,则进入第一轮的状态。
2、丙先开枪,然后三个再同时开枪。
当丙命中一人时,剩下的情况对自己都是不利的。所以,丙的最优策略是第一枪故意打空,进入第一种情况的状态。
警察与小偷博弈
小镇上有一个警察和一个小偷。再小镇的两侧有一家银行和一家酒馆。银行需要保护的财产为2,酒馆需要保护的财产为1。警察保护银行的收入为2,保护酒馆的 收入为1。警察与小偷要选择同样的地点,警察才能抓到小偷。警察在考虑怎样才能把损失降低到最小的情况,可以采用抽签的行为,银行两票,酒馆一票。这样警察去银行的概率为2/3,去酒馆的概率为1/3。那么对于小偷来说,去银行一票,去酒馆一票,也就是说小偷去银行的概率为1/3,去酒馆的概率为2/3。警察的收益为2×2/3×1/3+1×1/3×2/3=6/9。小偷的收益为1×2/3×2/3+2×1/3×1/3=6/9,警察与小偷的收益相等,即警察和小偷成功的概率是相等的。
海盗分金
有五个海盗掠夺了100枚金币,按照抽签顺序依次提出分金方案,并由五人共同表决。超过半数通过,否则将被投入海中。假设这五名海盗都聪明绝顶并且判断力很强,可以推断出哪种方案对自己最有利并作出判断。
采用倒退的方法可以简化这个问题。假设1,2,3号海盗都被投入海中,那么无论4号海盗做出什么样的方案,5号海盗都会不同意,并最终独吞100金币。所以4号海盗必须同意3号海盗的方案才能保命。3号猜到这一点,就会采取(100、0、0)的分金方案,因为他清楚地知道即便4号一枚金币也分不到,也仍然会同意他的方案。2号猜到3号的策略,就会采取(98、0、1、1)的方案,因为2号只要稍微照顾到4、5号的利益,4、5号就会向他投赞成票,而不希望2号出局让3号分配。因此2号最终会获得98枚金币。1号同样猜到2号的意图,就会采取(97、0、1、2、0)或者(97、0、1、0、2)的方案。对于1号来说,只要放弃2号,再分给3号一枚金币,给4号或5号两枚金币,这样他就可以得到三票,顺利通过方案拿到97枚金币。
这样看起来1号想要活命,不需要采用采用策略(0,25,25,25,25)。相反,1号先进行决策,掌握了先机,可以采用是自己利益最大化的策略