本文将探讨博弈论如何阐述流行的说法:“你是你最常相处的前五个人平均水平的代表。”通过重复囚徒困境游戏的例子,我们可以看到个人行为和结果是如何由同一环境中的人们的策略——无论是否合作——所塑造的。
使用 GPT-4o 生成的图像
我在前两篇文章中讨论了博弈论系列中的囚徒困境问题和重复囚徒困境游戏。这篇文章是我博弈论系列的第三部分,所以如果你还没有阅读前两篇文章,我建议你先阅读它们。
第一部分 讨论了经典的囚徒困境问题,并强调了博弈论在许多现实场景中的相关性。第二部分 通过一个例子描述了重复囚徒困境游戏,其中 Kratika 和 Ishita,两家竞争的食品配送平台的 CEO,尝试不同的策略进行竞争。它还讨论了 Robert Axelrod 的著名锦标赛,该锦标赛揭示了最成功的策略具有一些关键特征:它们是“善良”的(从合作开始),宽容的(但不过度),在被挑衅时愿意报复,并且方法明确。
不同的策略
以牙还牙策略是指玩家开始时合作,并在下一轮中模仿对手的动作。以牙还两牙策略是指玩家开始时合作,但如果对手连续两次背叛,则玩家会背叛。游戏理论家如 Two-tits-for-tat 开发了类似的策略,其中玩家开始时合作,但如果对手背叛两次,则玩家也会背叛。还有策略是玩家以一定的概率玩以牙还牙,偶尔背叛,以及以牙还 n 牙,其中玩家在对手背叛 n 次后背叛。
为了简单起见,Kratika 模拟了一场包含十种策略的锦标赛:以牙还牙、以牙还两牙、以两牙还一牙、总是合作、总是背叛、巴甫洛夫、严厉触发器、反向以牙还牙、随机和背叛直到合作。
def two_tits_for_tat(self, opponent_previous_moves):
if len(opponent_previous_moves) == 0:
return self.cooperate
if opponent_previous_moves[-1] == self.defect:
return self.defect
if (self.my_moves[-1] == self.defect and self.my_moves[-2] == self.defect):
return self.cooperate
if self.my_moves[-1] == self.defect:
return self.defect
return self.cooperate
Kratika 的不同策略和特性的循环赛。图片归作者所有
两个“以牙还牙”的策略在较温和的策略中排名最后。这是因为“两个以牙还牙”是一种高度报复性和较少宽容的策略。Kratika 的最新模拟进一步巩固了前文得出的结论。
以牙还牙是最好的策略吗?
以牙还牙类型的策略在我们的游戏中一直表现最佳。这意味着它们是最好的策略吗?
答案是,令人惊讶地,不是。
让我们分析当以牙还牙策略家族被玩时,Kratika 的游戏。
Kratika 的模拟中“以牙还牙”策略得分表。图片来源 – 作者
Kratika 的模拟中“以牙还牙-两次”策略得分表。图片来源 – 作者
Kratika 的模拟中“两个以牙还牙”策略得分表。图片来源 – 作者
观察 –
-
以牙还牙和以牙还牙-两次在单挑中一无所获。两个以牙还牙只能击败随机策略。在最理想的情况下,它们设法与对手的策略打成平手。它们专注于即使在不利位置也要最大化利润。
-
以牙还牙、以牙还牙-两次和两个以牙还牙策略输给了恶劣的策略。那些早期背叛的策略利用了以牙还牙的初始合作,一旦这种早期损失发生,以牙还牙就无法完全恢复。
在 Kratika 模拟的比赛中,每个参与者都选择了不同的策略。
如果比赛在一个玩家选择以牙还牙而其他玩家总是背叛的环境中举行,那么对以牙还牙策略的玩家来说结果将是灾难性的。这是以牙还牙的弱点。Kratika 进行了模拟,并观察到采用以牙还牙策略的玩家获得了 174.125 单位,而其他人每人获得了 175.5 单位。
相反,当 Kratika 尝试通过用相对更温和、更宽容的策略(尽管它们在开始时仍然很恶劣,因为所有玩家都选择了背叛)替换其他玩家的策略来模拟游戏时,以牙还牙策略获得了 437.5 分,而其他玩家每人获得了 212.5 分。
结论是什么?
-
以牙还牙策略在温和或志同道合的策略环境中表现卓越。
-
以牙还牙通过温和和宽容的形式追求合作。相对更温和和更宽容的策略帮助提高了每个玩家获得的利润(从 175.5 提高到 212.5)!
-
以牙还牙鼓励进步性和可控的侵略性。它从合作开始,迅速对背叛进行报复,但会原谅偶尔的背叛。
-
总是背叛是一种非进步性和自我保护性的策略。它为每个人创造了停滞和低利润的结果。
你周围五个你最常相处的人的平均水平决定了你。
在一个由恶劣玩家主导的环境中,所有玩家的整体利润下降到大约 175,因为恶劣的策略拖累了所有人,包括那些使用更温和策略的人。最初选择合作的玩家甚至可能会被诱惑采用更恶劣的策略以保持竞争力。
相反,当环境中包含较少使用“总是背叛”策略的玩家时,采用“以牙还牙”策略的玩家有助于提高整体利润,使所有人受益。这表明温和的策略可以提升团队,而恶劣的策略则会拖累所有人。
如果 Kratika 和 Ishita 想要获得更多利润,他们必须选择一种从合作开始并鼓励共同增长的渐进式策略。通过迅速对自私行为进行报复但仍然开放于宽恕,玩家可以培养一个长期来看对所有人都有益的合作环境。
希望您觉得这篇文章富有洞察力和吸引力。Veritasium 关于博弈论的出色视频启发了这个由三篇文章组成的系列。我鼓励您观看这个视频。
在攻读硕士学位期间,我参加了一门博弈论课程。这段视频重新点燃了我对博弈论的兴趣。即将推出的博弈论系列文章将探讨其他游戏和博弈论中的有趣方面。
请继续关注下一篇文章!感谢您阅读这篇文章!
3274

被折叠的 条评论
为什么被折叠?



