强化学习从单代理到多代理系统的理论与算法架构综述-优快云博客

参考文献：Zhang, D., Yuan, Q., Meng, L. et al. Reinforcement learning for single-agent to multi-agent systems: from basic theory to industrial application progress, a survey. Artif Intell Rev (2025). https://doi.org/10.1007/s10462-025-11439-9

本文对这篇文献进行总结提炼，供中文地区读者阅读。

1 引言

强化学习作为人工智能领域的核心分支，其发展脉络可以追溯到20世纪50年代的心理学和行为科学。心理学家通过观察动物行为发现，奖励或惩罚可以改变行为发生的概率，这一原理为现代强化学习奠定了基础。历经几十年的发展，强化学习从早期的理论探索逐步演进到今天与深度学习相结合的深度强化学习时代，其应用范围也从游戏领域扩展到自动驾驶、机器人控制、医疗决策等众多现实场景。

相比于监督学习需要大量标注数据和无监督学习缺乏明确学习目标的特点，强化学习通过智能体与环境的交互来学习最优决策策略。这种基于试错的学习机制使其特别适合于那些目标明确但难以获得标注数据的复杂问题。当强化学习从单个智能体扩展到多个智能体协作或竞争的场景时，问题的复杂性显著增加。多代理系统中的每个智能体不仅需要适应环境，还需要考虑其他智能体的行为，这引入了非平稳性、信用分配等新的理论和实践挑战。

本文系统地阐述强化学习的理论基础、单代理算法、多代理扩展方法以及实际应用进展。通过梳理从简单到复杂、从单代理到多代理的发展脉络，揭示不同算法之间的内在联系，为理解强化学习领域的最新进展提供清晰的思路。

2 强化学习的理论基础

2.1 马尔可夫过程与决策框架

强化学习的数学基础建立在马尔可夫性质之上。马尔可夫性质表述为系统的未来状态只依赖于当前状态，与历史路径无关。这一性质可以用概率形式表达为：

$$P[s_{t+1}|s_t] = P[s_{t+1}|s_1, s_2, \ldots, s_t]$$

其中 $s_t$ 表示时刻 t 的状态。状态间的转移过程由状态转移概率矩阵 P 描述，该矩阵的第 ij 元素表示从状态 i 转移到状态 j 的概率。这种结构在状态空间为有限集时特别有用，但许多实际问题涉及连续或无限状态空间，需要进一步的扩展。

纯粹的马尔可夫过程缺乏决策和奖励的成分，无法直接描述强化学习问题。为了引入智能体的决策因素，贝尔曼在20世纪50年代提出了马尔可夫决策过程（MDP）的概念。MDP 用五元组表示：

$$(S, A, P, R, \gamma)$$

各要素的含义分别为：S 是状态空间，A 是动作空间，P 是状态转移概率函数，R 是奖励函数，γ 是折扣因子。在 MDP 框架中，智能体在状态 $s_t$ 执行动作 $a_t$ ，环境随之转移到新状态 $s_{t+1}$ 并给予奖励 $r_t$ 。这一交互循环持续进行，智能体的目标是最大化长期累积奖励。

累积回报（Return）定义为：

$$G_t = r_t + \gamma r_{t+1} + \gamma^2 r_{t+2} + \cdots = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}$$

折扣因子 γ ∈ [0,1] 的作用是平衡即时奖励和未来奖励。当 γ 接近 0 时，智能体更看重当前奖励；当 γ 接近 1 时，未来奖励的权重增加。这个参数的设置对算法的收敛性和性能有重要影响。

在某些实际场景中，智能体无法完全观测环境状态，例如机器人在部分可见环境中的导航问题。这种情况下，MDP 被推广为部分可观测马尔可夫决策过程（POMDP）。POMDP 用八元组表示：

$$(S, A, P, R, O, Z, \gamma, b_0)$$

其中 O 是观测空间，Z 是观测函数，b_0 是初始信念状态。在 POMDP 中，智能体基于历史观测序列维护一个对真实状态的概率分布（信念状态），而非直接观测状态本身。

过程类型	包含要素	状态可观测性	环境动态	典型应用
马尔可夫过程	状态、转移概率	完全可观测	确定性或随机	天气预报、人口增长
马尔可夫决策过程	状态、动作、奖励、转移概率	完全可观测	随机	机器人控制、游戏
部分可观测MDP	状态、动作、奖励、观测、转移概率	部分可观测	随机	导航、医疗诊断

2.2 策略与价值函数

策略是强化学习中的核心概念，定义了智能体在给定状态下的行为方式。从数学角度看，策略是从状态空间到动作空间的映射。确定性策略为每个状态指定唯一动作，而随机策略则为每个状态指定动作上的概率分布。随机策略形式化为：

$$\pi(a|s) = P(A_t = a | S_t = s)$$

引入随机性的主要目的是平衡探索（exploration）和利用（exploitation）。探索使智能体发现潜在更优的策略，利用让智能体充分使用已知最优的策略。这一权衡对强化学习的成功至关重要。

价值函数用于评估状态或状态-动作对的好坏程度。状态价值函数 $V_\pi(s)$ 表示在状态 s 按照策略 π 行动的预期累积奖励：

$$V_\pi(s) = E_\pi[G_t | S_t = s] = E_\pi\left[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \Big| S_t = s\right]$$

动作价值函数（Q 函数） $Q_\pi(s, a)$ 表示在状态 s 采取动作 a 后按照策略 π 继续行动的预期累积奖励：

$$Q_\pi(s, a) = E_\pi[G_t | S_t = s, A_t = a] = E_\pi\left[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} \Big| S_t = s, A_t = a\right]$$

这两个函数之间存在重要的递推关系。在已知策略的条件下，状态价值可以通过对所有可能动作求期望得到：

$$V_\pi(s) = \sum_{a \in A} \pi(a|s) Q_\pi(s, a)$$

贝尔曼方程是价值函数的基本递推关系式。对于给定策略 π，状态价值函数满足的贝尔曼期望方程为：

$$V_\pi(s) = \sum_{a \in A} \pi(a|s) \left( R_s^a + \gamma \sum_{s' \in S} P_{ss'}^a V_\pi(s') \right)$$

其中 $R_s^a$ 是在状态 s 采取动作 a 的预期立即奖励， $P_{ss'}^a$ 是状态转移概率。该方程表明当前状态的价值等于立即奖励加上折扣后的后继状态价值的期望。

最优价值函数满足贝尔曼最优方程。最优状态价值函数 $V_(s)$ 和最优动作价值函数 $Q_(s, a)$ 分别满足：

这些方程表明最优策略在每个状态下都选择能最大化后续期望回报的动作。贝尔曼最优方程构成了许多强化学习算法的理论基础。

价值函数类型	定义对象	所需信息	计算复杂度	应用场景
状态价值函数 V(s)	单个状态	状态信息	低	评估状态重要性
动作价值函数 Q(s,a)	状态-动作对	状态和动作	中	动作选择基础
优势函数 A(s,a)	相对优劣程度	V(s) 和 Q(s,a)	中	减小方差
时间差分误差 δ	预测误差	一步转移	低	在线更新

2.3 随机策略与探索策略

环境中的不确定性和算法中需要的探索都要求采用随机策略。最简单的随机策略是 ε-贪心策略，以概率 1-ε 选择当前最优动作，以概率 ε 均匀随机选择其他动作。其数学表达为：

$$\pi(a|s) = \begin{cases} 1 - \epsilon + \frac{\epsilon}{|A(s)|}, & \text{if } a = \arg\max_a Q(s, a) \ \frac{\epsilon}{|A(s)|}, & \text{otherwise} \end{cases}$$

其中 |A(s)| 表示状态 s 下可用动作的数量。ε-贪心策略通过单一参数 ε 控制探索程度，实现了探索和利用的简单权衡。

对于连续动作空间，高斯策略广泛应用。高斯策略从参数化的高斯分布中采样动作：

$$a = \mu_\theta(s) + \sigma \cdot \epsilon, \quad \epsilon \sim N(0, 1)$$

其中 μ_θ(s) 是均值（通常由神经网络参数化），σ 是标准差，ε 是标准正态分布的采样值。高斯策略的对数梯度为：

$$\nabla_\theta \log \pi_\theta(a|s) = \frac{(a - \mu(s))\phi(s)}{\sigma^2}$$

其中 φ(s) 是特征向量。通过调整 σ，智能体可以控制探索程度。

Boltzmann 分布策略（也称软最大策略）根据 Q 值赋予动作选择概率，Q 值较高的动作被选择概率更大但不是绝对最优：

$$\pi(a|s) = \frac{\exp(Q(s,a)/\tau)}{\sum_b \exp(Q(s,b)/\tau)}$$

其中 τ 是温度参数。τ 较小时策略接近贪心，τ 较大时策略趋于均匀分布。这种方法在处理离散动作空间时效果良好。

2.4 马尔可夫博弈与多代理框架

单代理框架无法直接处理多个智能体相互作用的场景。马尔可夫博弈是将 MDP 扩展到多代理设置的自然框架。一个 N 代理马尔可夫博弈用六元组表示：

$$(N, S, A, P, {R^i}, \gamma)$$

其中各元素的含义为：N 是代理数量集合，S 是全局状态空间，A = A_1 × A_2 × ... × A_N 是联合动作空间，P 是全局状态转移概率，{R^i} 是各代理的奖励函数，γ 是折扣因子。

在马尔可夫博弈中，联合动作空间的规模随代理数量指数增长。如果每个代理有 m 个可选动作，N 个代理的联合动作空间大小为 m^N，这导致了多代理系统中著名的"维度诅咒"问题。

纳什均衡是博弈论中的核心概念。一个策略组合 s = (s_1, s_2, ..., s_n) 构成纳什均衡，当且仅当对于每个代理 i 和任何其他策略 $s'_i$，都有：

$$u_i(s_i, s_{-i}) \geq u_i(s'i, s{-i})$$

其中 $u_i$ 是代理 i 的收益函数， $s_{-i}$ 表示除代理 i 外其他代理的策略。纳什均衡表示一种稳定状态：任何单个代理都无法通过改变自己的策略而提高收益。

在部分可观测的多代理环境中，问题被建模为部分可观测马尔可夫博弈（POMG），用八元组表示：

$$(N, S, A, P, {R^i}, O, {Z^i}, \gamma)$$

其中 O 是观测空间， $Z^i$ 是代理 i 的观测函数。每个代理 i 的观测满足 $o_i \leq s$ ，即代理只能获得全局状态的部分信息。

对于多代理 POMDP 中的单个代理 i，其 Q 学习的贝尔曼方程可以表示为：

$$Q(z^i, a^i) = E_{z^i_{t+1}, r \sim P(z^i_{t+1}, r | z^i_t, a^i_t)} \left[ r + \gamma \max_{a^i_{t+1}} Q(z^i_{t+1}, a^i_{t+1}) \right]$$

其中 $z^i$ 是代理 i 基于观测历史形成的信念状态（对真实状态的概率估计）。

博弈类型	参与者数量	信息特点	最优解概念	代表算法
矩阵博弈	2 人	完全信息	纳什均衡	支付矩阵求解
马尔可夫博弈	多人	完全可观	纳什均衡	Q 学习变体
部分可观测博弈	多人	部分信息	贝叶斯纳什均衡	POMDP 算法

3 单代理强化学习的算法体系

3.1 动态规划与模型已知情况

动态规划是在完全已知环境模型（状态转移概率和奖励函数都已知）时的求解方法。动态规划的核心是将大问题分解为小问题，利用重叠子问题的特性进行递归求解。这种思想在许多强化学习算法中都有体现。

策略迭代算法通过反复执行策略评估和策略改进两个步骤来逐步改进策略。在策略评估阶段，对当前策略 π 的价值函数进行精确计算。由贝尔曼期望方程，可以列出一个线性方程组：

$$V_\pi(s) = \sum_{a \in A} \pi(a|s) \left( R_s^a + \gamma \sum_{s' \in S} P_{ss'}^a V_\pi(s') \right)$$

对所有 |S| 个状态列出这样的方程，得到 |S| 个线性方程和 |S| 个未知数。可以使用高斯消元法直接求解，或使用迭代求解方法如高斯-赛德尔迭代。高斯-赛德尔迭代的优势在于能够立即利用新计算的价值进行更新，通常比雅可比迭代更快收敛。

在策略改进阶段，对每个状态采用贪心策略改进：

$$\pi_{l+1}(s) = \arg\max_a Q_{\pi_l}(s, a)$$

通过反复交替执行这两个阶段直到策略收敛，策略迭代最终得到最优策略。

价值迭代优化了策略迭代的效率。注意到在许多情况下，策略评估还未完全收敛时，所得的策略就已经与最终的最优策略一致。价值迭代省略了完整的策略评估阶段，直接进行价值函数的贝尔曼最优更新：

$$V_{k+1}(s) = \max_a \left( R_s^a + \gamma \sum_{s' \in S} P_{ss'}^a V_k(s') \right)$$

价值迭代每次迭代的计算量虽然较少，但通常需要更多的迭代次数来收敛。尽管如此，由于单次迭代的开销小，总的计算量往往比策略迭代更低。

算法	每次迭代内容	收敛特性	计算复杂度	内存占用	适用规模
策略迭代	完整评估+改进	通常少于10次迭代	每次迭代 O(n^3)	O(n)	小状态空间
价值迭代	一次最优贝尔曼更新	需要许多次迭代	每次迭代 O(n^2m)	O(n)	中等状态空间
异步动态规划	选择性更新	快速收敛	每次迭代 O(m)	O(n)	大状态空间

3.2 无模型学习与蒙特卡洛方法

现实中环境模型往往未知，因此需要无模型（Model-Free）学习方法。蒙特卡洛方法通过从环境交互中采集轨迹样本，用经验均值代替理论期望来估计价值函数。

蒙特卡洛方法在完整轨迹结束后才进行更新。对于每个访问的状态 $s_t$ ，计算其后续的累积回报 $G_t$ ，然后按以下规则更新价值函数估计：

$$V(s_t) \leftarrow V(s_t) + \alpha(G_t - V(s_t))$$

其中 α 是学习率。这种增量更新方式使得随着样本数量增加，价值函数估计会逐步改进。蒙特卡洛方法的优点是无需环境模型，缺点是需要等待完整轨迹结束才能更新，导致学习效率较低，且方差较大。

时间差分（TD）学习结合了蒙特卡洛采样和动态规划的自举特性。与蒙特卡洛等待完整回报不同，TD 方法在每个时间步后都进行更新，利用下一时刻的价值函数估计：

$$V(S_t) \leftarrow V(S_t) + \alpha(R_{t+1} + \gamma V(S_{t+1}) - V(S_t))$$

括号内的部分称为 TD 误差 δ_t = R_{t+1} + γV(S_{t+1}) - V(S_t)，表示价值估计的预测误差。TD 学习的关键优势在于：首先，每一步都可以进行更新，不必等待轨迹结束，因此样本效率更高；其次，通过自举利用现有的价值估计，通常方差比蒙特卡洛方法低。

Sarsa（State-Action-Reward-State-Action）是 TD 方法应用于 Q 学习的一个例子。Sarsa 是同策略（On-Policy）算法，学习的是正在执行的策略的价值。其 Q 函数更新规则为：

$$Q(s, a) \leftarrow Q(s, a) + \alpha[r + \gamma Q(s', a') - Q(s, a)]$$

其中 (s, a, r, s', a') 是一个五元组。注意这里使用的是实际采取的下一个动作 a'，而不是最优动作。这导致 Sarsa 在策略改进过程中可能学到的不是全局最优策略，但这个特性使其在某些问题（如悬崖行走）上比 off-policy 方法更稳定。

Q 学习是最具影响力的无模型算法之一，它是异策略（Off-Policy）的，学习的是最优策略而不是当前策略。Q 学习的更新规则为：

$$Q(s, a) \leftarrow Q(s, a) + \alpha\left[r + \gamma \max_{a'} Q(s', a') - Q(s, a)\right]$$

关键的区别在于使用了 max_{a'} Q(s', a') 而不是 Q(s', a')。这使得 Q 学习可以从任何探索策略中学到最优策略。Q 学习的收敛性在表格形式下有严格的理论保证，但在使用函数逼近时可能不收敛。

学习方法	更新触发时机	策略类型	方差特性	偏差特性	收敛速度
蒙特卡洛	轨迹结束后	同策略	高	无偏	慢
Sarsa	每一步	同策略	中	有偏	中等
Q 学习	每一步	异策略	中	有偏	快
预期 Sarsa	每一步	异策略	中	有偏	快

3.3 深度 Q 网络与函数逼近

传统 Q 学习依赖于状态和动作的完整表格存储，这在状态空间很大或连续时变得不可行。深度 Q 网络（DQN）使用神经网络作为非线性函数逼近器来解决这个问题：

$$Q(s, a|\theta) \approx Q^*(s, a)$$

其中 θ 是神经网络的参数。DQN 的训练目标是最小化均方误差损失函数：

$$L(\theta) = E[(r + \gamma \max_{a'} Q(s', a'|\theta^-) - Q(s, a|\theta))^2]$$

其中 θ^- 是目标网络的参数。DQN 引入了两项关键创新来稳定学习：

第一项是经验回放。DQN 维护一个回放缓冲区，存储过去的转移四元组 (s, a, r, s')。训练时从缓冲区中随机采样小批量数据，这打破了顺序数据的相关性，减少了方差，提高了学习稳定性。

第二项是目标网络。为了避免训练时的自反馈（学习的网络同时作为目标和学习对象），DQN 维护两个网络：主网络用于选择动作和学习参数，目标网络用于计算目标 Q 值。目标网络的参数定期从主网络复制，通常每 C 步复制一次。

DQN 的成功在于它能够处理高维状态空间（如 Atari 游戏的像素输入），实现了从原始视觉输入的端到端学习。这标志着深度学习与强化学习结合的开始。

在 DQN 基础上提出了多个改进算法。双重 DQN（Double DQN）解决了 DQN 中 Q 值过估计的问题。DQN 在计算目标时使用相同的网络选择动作和评估 Q 值，容易导致价值高估。Double DQN 将动作选择和价值评估分开：

$$y^{DQN} = r + \gamma \max_{a'} Q(s', a'|\theta^-)$$

$$y^{DoubleDQN} = r + \gamma Q(s', \arg\max_{a'} Q(s', a'|\theta)|\theta^-)$$

决斗 DQN（Dueling DQN）改变了网络结构，将 Q 函数分解为状态价值和优势函数的和：

$$Q(s, a) = V(s) + (A(s, a) - \frac{1}{|A|}\sum_{a'} A(s, a'))$$

这种分解使得网络能够分别学习每个状态的整体价值和相对于其他动作的优势，通常能获得更好的学习效果。

DQN 变体	解决问题	网络结构改进	计算开销	收敛稳定性
原始 DQN	高维状态空间	单网络	低	中
Double DQN	Q 值过估计	双网络分离	低	中高
Dueling DQN	学习效率	价值和优势分解	低	中高
优先经验回放	样本效率	加权采样	中	中
Rainbow DQN	综合多个改进	结合多种技巧	高	高

3.4 策略梯度方法

与基于价值的方法不同，策略梯度直接在策略空间中优化。这种方法对于大动作空间或连续动作空间特别有优势。策略梯度方法参数化策略 π_θ(s,a)，通过最大化性能函数 J(θ) 来优化参数 θ。

性能函数定义为：

$$J(\theta) = E_{\pi_\theta}[G_t] = \sum_s \rho_{\pi_\theta}(s) \sum_a \pi_\theta(a|s) Q_{\pi_\theta}(s, a)$$

其中 ρ_{π_θ}(s) 是策略下的状态访问分布。通过对 J(θ) 求导并使用对数导数技巧（log-derivative trick），得到策略梯度定理：

$$\nabla_\theta J(\theta) = E_{\pi_\theta}[\nabla_\theta \log \pi_\theta(a|s) Q_{\pi_\theta}(s, a)]$$

这个结果表明，性能函数对参数的梯度可以表示为对数策略梯度与 Q 函数乘积的期望。实际的参数更新规则为梯度上升：

$$\theta \leftarrow \theta + \alpha \nabla_\theta J(\theta)$$

当用蒙特卡洛采样来估计 Q 函数时，需要完整的轨迹回报，导致方差较高。为了降低方差，可以减去一个基线函数 b(s)，得到带基线的策略梯度：

$$\nabla_\theta J(\theta) = E_{\pi_\theta}[\nabla_\theta \log \pi_\theta(a|s) (Q_{\pi_\theta}(s, a) - b(s))]$$

只要基线 b(s) 与动作无关，就不会改变梯度的期望，但能显著降低方差。最优的基线选择是状态价值函数 V_π(s)，此时 Q(s,a) - V(s) 称为优势函数 A(s,a)。

Actor-Critic 方法结合了策略梯度和价值函数学习。Actor 是策略网络，用于生成动作；Critic 是价值网络，用于评估动作的好坏。Critic 学习的价值函数被用作基线来降低 Actor 的梯度方差。两个网络的参数更新为：

$$\theta_A \leftarrow \theta_A + \alpha_A \nabla_{\theta_A} \log \pi_{\theta_A}(a|s) A(s,a)$$

$$\theta_C \leftarrow \theta_C + \alpha_C [r + \gamma V_{\theta_C}(s') - V_{\theta_C}(s)]$$

其中 A(s,a) = r + γV(s') - V(s) 是时间差分误差形式的优势函数。

异步优势 Actor-Critic（A3C）引入了异步训练框架，使用多个线程并行地与环境交互。每个线程独立采集经验和计算梯度，定期提交梯度到中央参数服务器。这种异步机制不仅提高了数据采集效率，还通过梯度延迟提供了隐式的正则化效果。

确定性策略梯度（DPG）针对连续动作空间的优化。与随机策略梯度不同，DPG 学习的是确定性策略 μ(s)，即对于给定状态输出单一动作而不是动作分布。DPG 的梯度定理为：

$$\nabla_\theta J(\theta) = E[\nabla_a Q(s, a) \nabla_\theta \mu_\theta(s)]$$

DPG 的优势在于样本效率高，特别是当动作空间很大时。深度确定性策略梯度（DDPG）在 DPG 的基础上引入深度学习和 DQN 的稳定化技巧（经验回放和目标网络），使其能够处理复杂的高维问题。

策略梯度方法	策略类型	梯度估计	基线使用	并行能力	典型应用
Reinforce	随机	蒙特卡洛	基线	否	离散动作
Actor-Critic	随机	时间差分	V 函数	否	连续状态
A3C	随机	异步 TD	V 函数	是	大规模并行
DPG	确定性	时间差分	N/A	否	连续动作
DDPG	确定性	经验回放	Q 函数	否	机器人控制

[在此粘贴 Figure 1：智能体与环境的交互循环示意图]

4 多代理强化学习的理论与方法

4.1 多代理系统的基本特征

多代理系统相比单代理有质的区别。在单代理系统中，环境是"相对静态"的（给定策略后，环境动态确定）。而在多代理系统中，每个代理同时在改进自己的策略，导致环境从单个代理的视角变为非平稳的。这种非平稳性是多代理强化学习中最大的理论挑战。

多代理系统的关键特征包括：首先，每个代理只有局部观测，而不是全局状态观测，这导致代理间的信息不对称。其次，代理间可能存在合作、竞争或两者混合的关系，需要不同的算法设计。再次，通信可能受限（如带宽限制），影响代理间的协调效率。最后，系统的可扩展性受到关注，即算法性能是否会随着代理数量增加而显著下降。

多代理强化学习的研究需要平衡多个目标：学习质量（收敛到好的策略）、计算效率（低的计算复杂度）、通信效率（少的通信开销）、可扩展性（能处理大量代理）。不同的算法在这些目标间做出不同的权衡。

4.2 独立学习与行为分析

独立学习是最直观但也最具局限性的多代理算法。在独立学习中，每个代理运行标准的单代理强化学习算法，完全不考虑其他代理的存在，将其他代理视为环境的一部分。从代理 i 的视角，状态转移满足：

$$P_i(s' | s, a_i) = \sum_{a_{-i}} P(s' | s, a_i, a_{-i}) \pi_{-i}(a_{-i} | s)$$

其中 a_{-i} 表示除代理 i 外其他代理的动作，π_{-i} 是它们的联合策略。由于 π_{-i} 不断变化，代理 i 眼中的环境呈现非平稳性。

独立 DQN（IDQN）直接将 DQN 应用到多代理环境。每个代理 i 维护自己的 Q 网络和目标网络。代理 i 的损失函数为：

$$L_i(\theta_i) = E[(r^i + \gamma \max_{a_i'} Q^i(s', a_i'|\theta_i^-) - Q^i(s, a_i|\theta_i))^2]$$

各代理独立地最小化损失函数，参数更新完全独立进行。IDQN 的优点是高度可扩展，不需要任何通信或中央协调。缺点是由于环境非平稳性，收敛性难以保证，且通常学习效果不理想。

独立 TRPO 和独立 DDPG 类似地应用信任区域策略优化和确定性策略梯度到多代理设置。这些方法都面临相同的非平稳性问题。

深度重复更新 Q 网络（DRUQN）尝试通过重复更新来减少偏差。具体地，DRUQN 使用两个 Q 网络进行更新，以减少由策略更新引起的估计偏差：

$$y = r + \gamma \max_{a'} \min(Q_1(s', a'|\theta_1^-), Q_2(s', a'|\theta_2^-))$$

通过使用两个网络的最小值，DRUQN 避免了单网络的过估计问题。这种方法虽然提高了稳定性，但计算复杂度相应增加。

独立学习的根本局限在于它忽视了代理间的相互作用。在完全竞争环境中（如两人零和博弈），这可能尚可接受；但在合作环境中，这种忽视会导致严重的性能下降。

独立学习算法	核心算法	代理更新独立性	通信需求	可扩展性	应用适合度
IDQN	DQN	完全独立	无	极高	竞争/混合环境
IQL+TRPO	TRPO	完全独立	无	极高	连续动作空间
IQL+DDPG	DDPG	完全独立	无	极高	连续高维控制
DRUQN	改进 Q 学习	完全独立	无	高	非平稳环境

4.3 中心化学习范式

中心化学习在训练阶段利用全局信息，但仍尝试在执行时保持分散性。这个范式解决了独立学习的非平稳性问题，代价是增加了训练的复杂性。

联合 Q 学习将多个代理的动作空间合并为单一的联合动作空间。设有 N 个代理，各自的动作空间为 A_1, A_2, ..., A_N，联合空间为 A = A_1 × A_2 × ... × A_N，规模为 |A| = |A_1| × |A_2| × ... × |A_N|。联合 Q 函数更新为：

$$Q^{tot}(s, a_1, ..., a_N) \leftarrow Q^{tot}(s, a_1, ..., a_N) + \alpha[r^{tot} + \gamma \max_{a_1', ..., a_N'} Q^{tot}(s', a_1', ..., a_N') - Q^{tot}]$$

其中 r^{tot} 是全局奖励。联合 Q 学习能利用全局信息学到协调策略，但联合动作空间的指数增长使其仅适用于代理数量很少的场景。

多代理近端策略优化（MAPPO）将 PPO 算法扩展到多代理设置。MAPPO 的架构为：全局 Critic 网络可以访问所有代理的信息，计算全局价值函数：

$$V(s) = \text{Critic}(s_1, s_2, ..., s_N)$$

每个代理的 Actor 网络只基于自己的局部观测：

$$\mu^i(o^i) = \text{Actor}^i(o^i)$$

在策略改进时，每个代理使用全局 Critic 提供的基线来降低方差。这种设计既利用了全局信息提高学习质量，又通过分散的 Actor 保留了执行的灵活性。

迭代奖励调整与团队方法（IRAT）构建个体策略和团队策略，同时进行学习。这允许每个代理既学习自己的最优行为，也学习如何对团队做出贡献，通过这种双重学习缓解奖励稀疏问题。

多代理激励通信（MAIC）采用创新方法，使每个代理能生成激励消息直接影响其他代理的价值函数。在 MAIC 中，代理学习的不仅是自己的策略，还学习如何通过通信影响其他代理的决策，从而实现隐式的团队协调。

中心化学习的主要限制是可扩展性。当代理数量增加时，全局状态和奖励的维度增长，中央处理器的计算负担急剧增加。此外，中心化学习通常要求完整的信息共享，这在竞争或混合任务中可能不现实。

4.4 通信与协作机制

当代理能够通过显式通信进行协调时，它们可以相互交换信息，提高协作效率。然而，通信本身需要设计，包括什么时候通信、与谁通信、通信什么内容。

强化学习中的通信与学习（RIAL）将深度循环 Q 网络与通信集成。每个代理的 Q 网络有两个输出：一个用于环境动作选择，一个用于通信动作选择。代理的 Q 网络输入包括自己的观测和前一时刻收到的其他代理的通信消息：

$$Q^i(o^i, m^i_{t-1}, a^{env}, a^{comm})$$

其中 o^i 是代理 i 的局部观测，m^i_{t-1} 是收到的消息，a^{env} 是环境动作，a^{comm} 是通信动作。RIAL 允许代理学会何时以及如何通信来改进团队性能。

DIAL（可微分代理间学习）改进了 RIAL，关键创新是让梯度通过通信通道反向传播。这使得代理能够通过梯度反馈相互指导通信。在训练时，通信是可微的（实数形式），允许端到端学习；在执行时，连续通信被离散化。

CommNet（通信网络）为多代理 POMDP 提出了一个架构。其核心思想是让每个代理学习如何编码自己的信息以及如何解码来自其他代理的信息。每个代理的 Q 函数输入包括自己的观测和其他代理观测的平均向量：

$$Q^i(o^i, \frac{1}{N-1}\sum_{j \neq i} o^j, a^i)$$

各代理可以使用共享神经网络的副本以分散方式执行，但这要求实时与所有代理通信。

IC3Net（何时通信）通过引入门控机制实现选择性通信。与 CommNet 的全局共享奖励不同，IC3Net 为每个代理提供个性化奖励，使其在完全竞争或混合环境中也适用。

双向协调网络（BiCNet）假设离散消息传输。它通过双向 LSTM 层连接代理的策略和价值网络，使代理能够捕捉长期依赖和有效交换信息。这种方法在高度协作的多代理场景中表现突出。

基于注意力的针对性通信（ATOC）使用双向 LSTM 整合接收信息。注意力机制允许动态确定哪些代理需要相互通信，避免了不必要的通信。SchedNet 考虑带宽限制，使用基于权重的调度来决定哪个代理在某时刻广播。

通信方法	通信时机	通信内容	实现方式	带宽需求	协作效果
RIAL	学习的	离散消息	独立 Q 网络	中	中
DIAL	学习的	连续/离散	可微分通道	中	中高
CommNet	固定	观测向量	共享网络	高	中
IC3Net	学习的	门控信息	选择性通道	低	中
BiCNet	学习的	隐状态	双向 LSTM	中	中高
ATOC	学习的	注意力信息	注意力机制	低	高

4.5 价值分解与协作学习

协作学习是多代理强化学习中最先进的方法。其核心思想是通过巧妙的价值函数分解，使得分散的个体优化能够实现全局协调。

价值函数分解的关键是满足 IGM（Individual-Global Maximum）条件。该条件要求全局最优的联合动作等于各代理独立地最大化自己的价值函数所得动作的组合：

$$\arg\max_{\mathbf{a}} Q^{tot}(\tau, \mathbf{a}) = \begin{pmatrix} \arg\max_{a^1} q^1(\tau^1, a^1) \ \vdots \ \arg\max_{a^N} q^N(\tau^N, a^N) \end{pmatrix}$$

其中 τ 表示代理的观测历史，Q^{tot} 是全局 Q 函数，q^i 是代理 i 的局部 Q 函数。满足 IGM 条件保证了分散执行时的全局最优性。

价值分解网络（VDN）是最简洁的方法，假设联合 Q 值是各代理 Q 值的线性和：

$$Q^{tot}(s, \mathbf{u}) = \sum_{i=1}^{N} Q^i(\tau^i, u^i)$$

其中 u^i 是代理 i 的动作。VDN 的训练目标是最小化与全局奖励的误差：

$$\mathcal{L}(\theta) = \frac{1}{M} \sum_{j=1}^{M} (y_j - \sum_{i=1}^{N} Q^i(h^i, u^i|\theta))^2$$

其中 y_j = r + γ max_u' ∑Q^i(h^i', u^i'|θ^-) 是目标值。VDN 简单高效，但加性假设过于限制，无法表达复杂的代理间相互作用。

单调值函数分解（QMIX）改进了 VDN，引入非线性混合网络来学习从局部 Q 值到全局 Q 值的变换。QMIX 的关键是单调性约束，确保：

$$\frac{\partial Q^{tot}}{\partial q^i} \geq 0, \quad \forall i$$

这样 IGM 条件自动满足。QMIX 的表达式为：

$$Q^{tot}(\tau, \mathbf{u}) = g_w(q^1(\tau^1, u^1), q^2(\tau^2, u^2), ..., q^N(\tau^N, u^N), s)$$

其中 g_w 是由参数 w 控制的混合网络。通过在混合网络中应用单调激活函数（如 ReLU）和适当的权重初始化，单调性约束可以被强制执行。QMIX 能够处理比 VDN 更复杂的多代理交互。

Q 转换（QTRAN）进一步放松了约束。QTRAN 的思想是学习一个变换函数来帮助分解复杂的联合 Q 函数。QTRAN 分两步进行：首先用 VDN 方法获得线性局部 Q 函数的和作为近似，然后用额外的网络学习线性近似与真实联合 Q 函数的差异。这使得 QTRAN 能表达比 QMIX 更复杂的交互关系。

注意力多代理 Q 学习（Qatten）引入注意力机制来动态调整代理的贡献权重。其聚合方式为：

$$Q^{tot}(\tau, \mathbf{u}) = V(\tau) + \sum_{i=1}^{N} \alpha_i(\tau) \cdot A^i(\tau^i, u^i)$$

其中 V(τ) 是全局价值函数，A^i 是代理 i 的优势函数，α_i(τ) 是注意力机制计算的权重。Qatten 的灵活性高，但计算复杂度也高。

价值分解方法	表达式类型	约束条件	表达能力	计算复杂度	收敛性
VDN	线性和	加性	低	O(n)	有保证
QMIX	混合网络	单调性	中	O(n²)	通常良好
QTRAN	差异学习	宽松	中高	O(n²)	需验证
Qatten	注意力聚合	灵活	高	O(n²)	通常良好

基于策略梯度的协作学习方法也很重要。多代理 DDPG（MADDPG）为每个代理学习一个 Critic，这个 Critic 在训练时能访问所有代理的信息。第 i 个代理的 Critic 学习：

$$Q^i(s, a_1, a_2, ..., a_N|\theta^i_c)$$

而 Actor 只基于自己的观测：

$$a^i = \mu^i(o^i|\theta^i_a)$$

执行时只需要 Actor，完全分散。MADDPG 适用于合作、竞争和混合环境。

多代理信用分配（COMA）专门解决多代理信用分配问题。COMA 使用反事实基线来评估每个代理的贡献。代理 i 在状态 s 采取动作 a^i 的优势估计为：

$$A^i(s, a^i) = \sum_{\mathbf{a}} \pi^{-i}(\mathbf{a}|s) Q^i(s, a^i, \mathbf{a}|\omega) - Q^i(s, a_0^i, a_0^{-i}|\omega)$$

其中 π^{-i} 是其他代理的策略，a_0 是默认动作。这个方法通过比较采取当前动作和默认动作的收益差异来评估代理的贡献。

多代理演员-评论家（MAAC）通过注意力机制改进 Actor-Critic 方法。Q 函数考虑其他代理观测-动作的加权组合，权重由注意力动态计算。这使得代理能自适应地关注相关的其他代理。

4.6 多代理强化学习的关键挑战

维度诅咒是多代理强化学习中最严重的问题。当 N 个代理各有 m 个可选动作时，联合动作空间大小为 m^N，呈指数增长。同时全局状态空间的维度也随代理数量增加。这导致准确估计和表示高维空间的数据分布变得极其困难。当样本数量有限时，学习效率和性能会显著下降。当前的解决方案包括问题分解（将大问题分为小问题）和降维（投影到低维空间），但在复杂动态环境中仍需进一步研究。

环境非平稳性源于代理策略的不断变化。从单个代理的视角，其他代理构成了环境的动态部分。状态转移概率和奖励函数不再固定，而是随着其他代理策略的改变而变化。这打破了 MDP 的平稳假设，使得收敛性难以理论分析。CTDE 范式通过在训练时使用全局信息学习稳定策略来缓解这个问题，但仍需要更高效和健壮的算法。

信用分配问题在多代理系统中表现突出。全局奖励由多个代理共同决定，但每个代理对结果的具体贡献并不明确。不公平的信用分配导致某些代理学习不足而其他代理过度学习，最终降低系统性能。价值函数分解方法通过将全局奖励分解为局部奖励来处理这个问题，但在处理多代理合作、长期奖励延迟和跨场景适用性时仍存在局限。

通信效率与可扩展性的权衡也很关键。增加通信可以提高协调效果，但通信本身有成本（带宽、延迟）。找到通信与协作效果的最优平衡是实际应用的关键问题。

挑战	主要表现	现有解决思路	遗留问题
维度诅咒	联合空间指数增长	分解、降维、函数逼近	高维复杂环境的有效分解
环保非平稳性	策略变化导致环境变化	CTDE、稳定化技巧	理论收敛保证
信用分配	多代理贡献不清	价值分解、反事实基线	长期影响评估
通信效率	带宽与效果平衡	选择性通信、调度	自适应通信

5 强化学习算法的分支与扩展

5.1 元强化学习

元强化学习旨在让智能体学会"如何学习"，即快速适应新任务。传统强化学习在面对新任务时需要大量样本重新训练，导致样本效率低下。元强化学习通过利用先前任务的知识，使智能体能在少量样本下迅速适应。

模型无关元学习（MAML）是元强化学习的代表算法。MAML 的思想是找到一个好的初始化参数，使得经过少量梯度更新后就能快速适应新任务。MAML 的训练过程分为外层循环（meta-update）和内层循环（task-update）。内层循环在每个任务上进行若干梯度更新，外层循环优化初始参数使其对多个任务的适应性最好。

此外还有多任务强化学习、多策略元强化学习等方向，这些方向都试图通过学习更通用的表示或策略来提高学习效率。

5.2 迁移强化学习

迁移强化学习应用迁移学习的思想到强化学习。其目标是将源任务中学到的知识应用到目标任务，加快目标任务的学习。迁移的形式多样，包括策略迁移（直接迁移策略）、价值函数迁移（迁移学到的价值函数）、特征表示迁移（迁移学到的特征）和经验迁移（重用源任务的经验）。

5.3 分层强化学习

分层强化学习将复杂任务递阶分解为多个层级的子任务。高层策略制定抽象的目标，低层策略执行具体的动作。这种分层设计显著降低了决策复杂度。基于选项的学习、分层抽象机学习和 MaxQ 分解是常见的方法。

5.4 离线强化学习

离线强化学习针对仅有静态数据集、无法与环境在线交互的场景。这在许多实际应用中常见（如历史驾驶数据）。离线强化学习的核心挑战是避免学到数据集中不存在的动作，因为无法通过交互来验证其有效性。

5.5 逆向强化学习

逆向强化学习从专家示范中推断隐含的奖励函数，而不是直接给定奖励。这对难以精确定义奖励的问题特别有用。

强化学习分支	主要关注点	解决的问题	代表算法	应用领域
元强化学习	快速适应新任务	样本效率	MAML、PEARL	多任务学习
迁移强化学习	知识复用	训练时间	策略迁移、特征迁移	相似任务
分层强化学习	问题分解	决策复杂度	选项、HAM、MaxQ	长期规划
离线强化学习	无交互学习	样本获取	CQL、AWR	历史数据
逆向强化学习	奖励学习	奖励设计	IRL、GAIL	从演示学习

6 强化学习的应用进展

6.1 智能交通领域

在交通信号控制中，传统的固定时长控制无法适应动态流量，而基于多代理强化学习的自适应控制系统能动态调整信号。将每个路口的信号灯建模为一个代理，这个代理观测队列长度和车流，学习如何调整信号时长。通过多代理协调，系统能最小化全网的等待时间。

在车辆协作方面，多代理 Actor-Critic 算法使得多辆车能动态调整驾驶策略。每辆车作为一个代理，考虑周围环境和其他车的状态进行决策，提高了驾驶安全性和效率。无人机编队协作控制是另一个重要方向，通过多代理强化学习可以实现大规模 UAV 编队的自主协调。

6.2 医疗健康领域

在慢性病管理中，糖尿病患者的个性化胰岛素给药可通过强化学习根据患者血糖水平、进食时间等动态调整。患者状态作为 MDP 的状态，治疗决策作为动作，患者健康指标作为奖励。通过学习个性化策略，能显著改善治疗效果。

医疗资源分配中，强化学习能根据实时需求动态优化资源分配。例如，医护人员、手术室、住院床位等资源的分配可通过多代理强化学习来优化，提高整个医疗系统的效率和公平性。

6.3 能源管理领域

在微电网中，能源存储状态、负荷需求和分配决策可建模为 MDP。通过强化学习能动态优化微电网的运行策略，最大化可再生能源利用率并保证稳定供电。建筑能耗优化中，可用 DQN 根据实时传感器数据动态调整 HVAC 参数，在保证舒适度的同时最小化能耗。

应用领域	具体问题	强化学习方法	主要优势	关键指标
交通信号控制	路口信号优化	MARL、值分解	动态适应性	平均等待时间
车辆协作	多车编队控制	多代理 AC	分散决策	安全性、效率
糖尿病管理	胰岛素给药	Deep Q-learning	个性化方案	血糖控制
资源分配	医护分配	多代理优化	公平高效	患者满意度
微电网控制	能源调度	DQN、DDPG	自适应控制	可再生能源比例

7 开放性问题与未来研究方向

尽管强化学习取得了显著进展，仍有多个根本性问题需要解决。理论收敛性分析在多代理设置中仍不完善，特别是在非平稳环境中。样本效率问题在大规模系统中仍未完全解决，许多应用需要数百万甚至数十亿次交互。算法可解释性缺乏，现有神经网络基础的强化学习方法作为"黑盒"系统，难以理解其决策过程，这在医疗等关键领域是严重局限。安全性保证是部署到真实环境的前提，需要确保学习过程中和最终策略都安全。

跨域泛化能力有限，在一个域学到的知识很难直接迁移到其他域。处理稀疏奖励的方法仍需改进。长期信用分配问题在多代理系统中特别困难。这些问题的解决需要理论创新和实践探索的紧密结合。

8 总结与展望

强化学习从心理学启发到当代深度学习结合，经历了数十年的发展。本文系统阐述了从单代理到多代理强化学习的理论基础、算法体系和实际应用。单代理强化学习通过动态规划、价值函数学习和策略梯度方法为后续研究奠定基础。多代理强化学习进一步拓展这些基础方法，通过独立学习、中心化学习、通信学习和协作学习等范式处理代理交互的复杂性。

当前强化学习算法在表达能力和处理能力上已达到相当高度，但仍面临维度诅咒、环境非平稳性、信用分配等根本性挑战。这些挑战的解决将推动强化学习技术的进一步突破。

未来的研究应该在以下方向着重突破：首先，开发高效的问题分解和降维技术克服维度诅咒；其次，设计更健壮的算法应对非平稳环境；再次，创新信用分配机制实现更公平的多代理协作；最后，将强化学习与其他 AI 技术（元学习、因果推理、可解释性）更深层融合，推动建立更安全、更高效、更可靠的智能系统。伴随这些理论和方法的创新，强化学习必将在自动驾驶、机器人、智能制造等更广泛领域找到深入应用。