摘要:
在单智能体强化学习中,我们要解决的是“智能体 vs 环境”的物理问题;而在多智能体强化学习(MARL)中,我们要解决的是“智能体 vs 智能体”的社会问题。当多个 AI 放在一起时,你并没有教它们背叛或合作,但它们却通过涌现行为 (Emergent Behaviors) 展现出了惊人的社会属性。本文将带你深入 MARL 的社会困境 (Social Dilemmas),从经典的囚徒困境到 DeepMind 的 Gathering (吃苹果) 实验,探讨为什么理性的 AI 会陷入公地悲剧,以及我们如何赋予 AI “道德”与“公平感”来打破这一僵局。
目录 (Table of Contents)
- 引言:代码里涌现出的“社会”
- 理论基石:博弈论中的陷阱
- 囚徒困境 (Prisoner’s Dilemma)
- 纳什均衡 vs 帕累托最优
- 公地悲剧 (Tragedy of the Commons)
- RL 中的新挑战:序列社会困境 (SSDs)
- 当博弈变成时间序列
- DeepMind 的经典实验:和平与战争
- 案例分析:涌现行为的双面性
- 黑暗面:学会开枪与恶意竞争
- 光明面:OpenAI Hide and Seek 中的工具使用
- 破局之道:如何构建和谐的 AI 社会?
- 厌恶不平等 (Inequity Aversion):赋予 AI “嫉妒”与“内疚”
- 社会影响力 (Social Influence)
- 互惠机制 (Tit-for-Tat)
- 总结
1. 引言:代码里涌现出的“社会”
在 MARL 中,我们经常观察到一种现象:简单的个体奖励机制 → \to → 复杂的群体行为。
你只给了 AI 一个简单的指令:“活下去”或“拿高分”。
- 在简单的环境里,它们学会了避障。
- 在资源有限的环境里,它们学会了互相攻击。
- 在极度困难的环境里,它们竟然学会了分工合作。
这种并非由程序员显式编码,而是由智能体交互自发产生的行为,被称为 涌现行为 (Emergent Behaviors)。然而,涌现并不总是美好的,AI 往往极其擅长陷入“互相伤害”的死循环。
2. 理论基石:博弈论中的陷阱
要理解 AI 的行为,首先要回顾博弈论中的经典模型。
2.1 囚徒困境 (Prisoner’s Dilemma)
这是社会困境的元模型。两个嫌疑人 A 和 B:
- 如果都合作 (Cooperate)(保持沉默):各判 1 年。
- 如果都背叛 (Defect)(互相检举):各判 5 年。
- 如果一人背叛,一人合作:背叛者释放(0年),合作者判 10 年。
| A \ B | 合作 © | 背叛 (D) |
|---|---|---|
| 合作 © | (-1, -1) [最优集体] | (-10, 0) |
| 背叛 (D) | (0, -10) | (-5, -5) [纳什均衡] |
2.2 纳什均衡 vs 帕累托最优
- 个体理性 (Individual Rationality):对于 A 来说,无论 B 选什么,A 选“背叛”总是收益最高的(0 > -1, -5 > -10)。
- 集体理性 (Collective Rationality):大家都选“合作”才是总收益最高的(-2 vs -10)。
核心矛盾:在标准的 RL 算法(如 IQL, MADDPG)中,每个 Agent 都在最大化自己的 R i R_i Ri。数学决定了它们必然会收敛到 (-5, -5) 的纳什均衡,而不是 (-1, -1) 的帕累托最优。这就是社会困境。
2.3 公地悲剧 (Tragedy of the Commons)
一群牧民在公共草场放牧。每个人多养一只羊,收益归自己,草场枯竭的代价由大家分摊。
结果:每个人都疯狂增加羊的数量,最终草场荒芜,所有人饿死。
3. RL 中的新挑战:序列社会困境 (SSDs)
现实世界不是一次性的矩阵博弈,而是连续的时间序列。DeepMind (Leibo et al., 2017) 提出了 Sequential Social Dilemmas (SSDs)。
3.1 定义
在 SSDs 中:
- 合作是长期的:需要一系列动作才能达成(如一起把猎物赶进包围圈)。
- 背叛是诱人的:短期内背叛(如抢夺队友的猎物)能获得高额瞬时回报。
3.2 DeepMind 实验:Gathering (采集与激光)**
- 设定:两个 Agent 在地图上吃苹果。它们装备了“激光束”,可以把对手暂时定住移除出游戏。
- 现象:
- 当苹果充足时,大家相安无事,各吃各的(和平)。
- 当苹果稀缺时,Agent 学会了不再去吃苹果,而是先用激光打死对手,然后独吞所有苹果。
- 结论:资源匮乏诱发了攻击性。AI 陷入了“内卷”——花费时间攻击对手的收益,高于自己找苹果的收益。
4. 案例分析:涌现行为的双面性
4.1 负向涌现:懒惰与破坏
在 Wolfpack (狼群狩猎) 游戏中,如果是 IQL 训练:
- 两只狼需要配合才能抓到猎物。
- 涌现行为:一只狼学会了在猎物尸体旁边“蹲守”(Camping)。它不参与追捕,只在队友抓住猎物的瞬间冲上去分一杯羹。这是典型的 Free-Rider。
4.2 正向涌现:OpenAI Hide and Seek
这是 RL 历史上最精彩的实验之一。
- 阶段 1:Hider 学会了乱跑。
- 阶段 2:Seeker 学会了追击。
- 阶段 3 (工具使用):Hider 发现可以用箱子把门堵住(Block)。
- 阶段 4 (Bug利用):Seeker 发现利用斜坡跳起来,可以卡 Bug 飞进墙里(Ramp Use)。
- 阶段 5 (防御策略):Hider 学会了先把斜坡推走锁定,再躲起来(Defense)。
这一系列复杂的策略迭代,完全没有人工干预,纯粹是由于对抗 (Competition) 带来的军备竞赛。
5. 破局之道:如何构建和谐的 AI 社会?
如果我们不希望 AI 最终走向“互害”,我们需要修改它们的内在动机 (Intrinsic Motivation)。
5.1 厌恶不平等 (Inequity Aversion, IA)
人类往往“不患寡而患不均”。我们将这种心理建模到 Reward 中 (Hughes et al., 2018)。
修正后的奖励:
R
i
′
=
R
i
−
α
max
(
R
j
−
R
i
,
0
)
−
β
max
(
R
i
−
R
j
,
0
)
R_i' = R_i - \alpha \max(R_j - R_i, 0) - \beta \max(R_i - R_j, 0)
Ri′=Ri−αmax(Rj−Ri,0)−βmax(Ri−Rj,0)
- 嫉妒 ( α \alpha α):如果别人比我拿得多,我不爽。
- 内疚 ( β \beta β):如果我比别人拿得多,我也不爽。
效果:在公地悲剧实验中,加入 IA 的 Agent 学会了节制。它们不再疯狂消耗资源,而是维持可持续发展,最终大家都活得更久。
5.2 社会影响力 (Social Influence)
MIT 的研究者提出,如果我的动作能改变其他 Agent 的行为(即我有影响力),我应该获得奖励。
- 这促使 Agent 去关注队友,产生沟通和协作,而不是把队友当空气。
5.3 互惠机制:以牙还牙 (Tit-for-Tat)
LOLA (Learning with Opponent-Learning Awareness) 算法让 Agent 能够考虑到:“如果我背叛,对手下一轮也会背叛,导致我也受损。”
具备这种前瞻性思维的 Agent,更有可能在囚徒困境中选择合作。
6. 总结
多智能体强化学习不仅是计算机科学,更是计算社会学。
- 理性即灾难:纯粹理性的 RL Agent 必然陷入纳什均衡的社会困境(如相互背叛)。
- 涌现是把双刃剑:它能带来惊人的智能(工具使用),也能带来毁灭性的内卷(互相攻击)。
- 价值观对齐:为了构建良性的多智能体系统,我们必须把人类的价值观(公平、互惠、利他)写入 Reward Function,否则 AI 就会重新演绎一遍人类历史上的所有战争与悲剧。
下一篇,我们将探讨 MARL 的技术挑战——异构智能体 (Heterogeneous Agents),看看当坦克、飞机和步兵混编时,RL 该如何指挥。
1393

被折叠的 条评论
为什么被折叠?



