混合型博弈：当合作遇上竞争 (Mixed Cooperative-Competitive)

最新推荐文章于 2025-12-21 14:47:42 发布

原创最新推荐文章于 2025-12-21 14:47:42 发布 · 1k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#网络 #机器学习 #人工智能

多智能体强化学习专栏收录该内容

6 篇文章

订阅专栏

摘要：
现实世界很少是纯粹的“你好我好大家好”（完全合作），也很少是纯粹的 1v1 单挑（完全竞争）。最常见的形态是团队对抗 (Team-based Adversarial)：例如王者荣耀/Dota2 的 5v5，或者机器人足球世界杯。在这种混合型 (Mixed) 场景下，智能体面临双重人格分裂：对内，它是无私的队友；对外，它是冷酷的杀手。本文将深入剖析混合型 MARL 的数学模型，详解 MADDPG 算法如何通过“中心化 Critic”一统江湖，并介绍 Population-Based Training (PBT) 如何解决复杂的 Meta-Game 进化。

目录 (Table of Contents)

什么是混合型 MARL？
- 定义：一般和博弈 (General-Sum Game)
- 典型场景：团队零和 (Team Zero-Sum)
双重困境：内忧外患
- 内忧：信誉分配与协作
- 外患：非平稳性与策略克制
核心算法：MADDPG (Multi-Agent DDPG)
- CTDE 的完美落地
- “我知道你知道我知道”：全知全能的 Critic
- 算法推导与 Loss 设计
进阶技巧：种群训练 (Population-Based Training, PBT)
- 为什么梯度下降不够用了？
- 从“炼丹”到“进化论”
- OpenAI Five 的成功秘诀
实战考量：Reward Shaping
- 个人英雄主义 vs 团队精神
总结

1. 什么是混合型 MARL？

1.1 定义：一般和博弈 (General-Sum Game)

在混合型环境中，智能体之间的关系既不是完全一致（ $R^1=R^2$ ），也不是完全对立（ $R^1=-R^2$ ）。
任意智能体 $i$ 和 $j$ 的奖励 $R^i, R^j$ 之间没有固定的数学约束。

1.2 典型场景：团队零和 (Team Zero-Sum)

这是混合型 MARL 中研究最多的子集。
假设有两支队伍：红队 $\mathcal{N}_A$ 和蓝队 $\mathcal{N}_B$ 。

队内合作： $\forall i, j \in \mathcal{N}_A, R^i = R^j = R_A$ 。
队间竞争： $R_A = -R_B$ 。

例子：

机器人足球 (RoboCup)：你要传球给队友（合作），同时晃过对方后卫（竞争）。
无人机群战：红蓝双方无人机集群对抗。

2. 双重困境：内忧外患

混合型 MARL 之所以难，是因为它同时继承了前两类问题的难点，并且还发生了“化学反应”。

2.1 内忧：信誉分配 (Credit Assignment)

在团队内部，我们依然面临 Lazy Agent 问题。如果赢了比赛，是每个人都打得好，还是 4 个大神带 1 个坑货？如果 Reward 仅仅是“赢/输”，梯度信号会非常稀疏且充满噪声。

2.2 外患：非平稳性 (Non-Stationarity)

对于红队的一个 Agent 来说，环境变得极度不可预测：

队友在变（他在学习配合我）。
对手在变（他在学习针对我）。

这种动态耦合导致环境的状态转移概率 $P(s'|s, a^i)$ 剧烈抖动。如果只用普通的 DQN/PPO，Agent 甚至无法判断 Reward 变低是因为自己变菜了，还是因为对手变强了。

3. 核心算法：MADDPG

2017 年，OpenAI 发表了 MADDPG (Multi-Agent Deep Deterministic Policy Gradient)，这是解决混合型 MARL 的里程碑式算法。它将 CTDE (中心化训练，去中心化执行) 框架发挥到了极致。

3.1 核心思想

执行 (Actor)：每个 Agent $i$ 有自己的策略网络 $\mu_i(o_i)$ ，只看局部观测。
训练 (Critic)：每个 Agent $i$ 还有一个价值网络 $Q_i(\mathbf{x}, a_1, \dots, a_N)$ 。注意，这个 Critic 能看到所有人的观测 $\mathbf{x}$ 和所有人的动作 $\mathbf{a}$ （包括队友和对手）。

为什么这么做有效？
通过把“对手的动作” $a_{opponent}$ 作为输入喂给 Critic，环境对于 Critic 来说就变成了平稳的（Stationary）。
$P(s' | s, a_{me}, a_{opponent})$
因为 $a_{opponent}$ 已经是已知条件，状态转移不再像黑盒一样随机变化。

3.2 梯度公式

对于 Agent $i$ ，其 Actor 的更新梯度为：

$\nabla_{\theta_i} J \approx \frac{1}{K} \sum_k \nabla_{\theta_i} \mu_i(o_i^{(k)}) \cdot \nabla_{a_i} Q_i^{\mu}(\mathbf{x}^{(k)}, a_1^{(k)}, \dots, a_i, \dots, a_N^{(k)})|_{a_i=\mu_i(o_i^{(k)})}$

解读：

Critic 告诉 Actor：“在当前大家都在乱战的情况下（ $\mathbf{x}, \mathbf{a}^{-i}$ ），你的动作 $a_i$ 往哪个方向改，我的 Q 值能变大？”
即使对手是竞争关系，Critic 也能学会预测对手的威胁，从而指导 Actor 做出规避或反击动作。

3.3 代码逻辑 (PyTorch 伪代码)

# 混合型环境：Critic 输入必须包含所有人的信息
class CentralizedCritic(nn.Module):
    def __init__(self, n_agents, obs_dim, act_dim):
        super().__init__()
        # 输入维度 = (单个观测 + 单个动作) * 智能体数量
        total_input = (obs_dim + act_dim) * n_agents
        self.net = nn.Sequential(
            nn.Linear(total_input, 64),
            nn.ReLU(),
            nn.Linear(64, 1)
        )

    def forward(self, all_obs, all_acts):
        # all_obs: [batch, n_agents * obs_dim]
        # all_acts: [batch, n_agents * act_dim]
        x = torch.cat([all_obs, all_acts], dim=1)
        return self.net(x)