强化学习：DDPG到MADDPG

最新推荐文章于 2025-09-12 22:06:27 发布

原创

最新推荐文章于 2025-09-12 22:06:27 发布 · 1.2w 阅读

117 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习 #机器学习 #多智能体

策略梯度(Policy Gradient)

行动器-评判器方法(Actor-Critic)

Deterministic Policy Gradient

on-policy和off-policy

DPG

Deep Deterministic Policy Gradient

Multi-agent Deep Deterministic Policy Gradient

本文主要关注于强化学习中基于策略梯度的方法。首先会简要介绍什么是策略梯度，什么是Actor-Critic算法，以及DPG算法，之后会重点讲述DDPG(Deep Deterministic Policy Gradient)算法，以及DDPG的多智能体版本：MADDG(Multi-agent Deep Deterministic Policy Gradient)。

策略梯度(Policy Gradient)

与基于策略梯度（Policy Based）的方法相对应的，是基于动作价值函数（Value Based）的方法。我们熟悉的DQN（Deep Q Learning）就是典型的基于动作价值函数的强化学习方法。它们都是先学习动作价值函数，然后根据估计的动作价值函数来选择动作，如果没有这个动作价值函数，那么策略也不会存在。但是Value Based的方法也存在一些问题，首先，Value Based的方法很难处理连续动作的问题，因为Value Based的方法是根据动作价值函数q(s,a)，寻找能使得q最大的a，如果a是一个连续空间下的动作，这个问题就会很难处理。另外,Value Based的方法也很难输出一个随机策略，因为我们最后选择动作是去选择q(s,a)最大的，而不是基于一个a的概率，因此，我们期望能有一种方法，可以不经过价值函数，直接输出动作的概率，这就是Policy Based的方法。

如上所述，我们要学习的策略，可以形式化地表达为 $\pi(a|s,\theta)=Pr \{A_t = a | S_t = s, \theta_t = \theta\}$ ，也就是在t时刻，状态s下选择a动作的概率。我们讨论的策略参数θ的学习方法都是基于某种性能度量J(θ)的梯度，这些梯度是度量J(θ)对策略参数的梯度，我们的目标是最大化性能指标，所以它们的更新近似于J的梯度上升。

$\theta_{t+1} = \theta_{t} + \alpha \widehat{\Delta J(\theta_{t} )}$

所有符合这个框架的方法都称为策略梯度法，不管它们是否还同时学习一个近似的价值函数。

我们基于策略梯度定理 $\nabla J(\boldsymbol{\theta}) \propto \sum_{s} \mu(s) \sum_{a} q_{\pi}(s, a) \nabla \pi(a \mid s, \theta)$ 来对参数进行优化。

有了对参数的优化方法，下面的问题就是这个策略函数 $\pi(a|s,\theta)$ 具体应当是怎样的。我们可以简单看一下，在离散的情况下，策略梯度函数是怎样的。我们可以根据一个指数柔性最大化分布 $\pi(a \mid s, \boldsymbol{\theta}) \doteq \frac{e^{h(s, a, \boldsymbol{\theta})}}{\sum_{b} e^{h(s, b, \boldsymbol{\theta})}}$ 选择。在这里h可以是任意的函数，它既可以是一个复杂的神经网络，也可以是一个简单的线性组合。在这里，我提一个问题，连续性的动作，我们是怎么基于 $\pi(a \mid s, \boldsymbol{\theta})$ 来进行策略选择的？粗看这个公式，它输出的是在特定环境下，某个动作a出现的概率，这看起来好像和Q(s,a)没有啥区别，面对无限的连续空间，我们依然找不到那个最大的概率，那我们是怎么选择动作的呢？

想要进一步了解策略梯度算法的可以去学习REINFORCE蒙特卡洛策略梯度算法。

我们对策略梯度的基本内容介绍到此为止，接下来我们看一种同时学习策略和价值函数的方法——Actor-Critic

行动器-评判器方法(Actor-Critic)

基于策略梯度的算法，比如蒙特卡洛策略梯度算法，都是基于回合更新的，学习比较缓慢，因此我们考虑使用时序差分的方法来消除这些不便。因此，我们可以考虑用一个Actor(继承策略梯度的方法)来学习策略，和一个Critic(继承Value based)的方法来实现单步更新，Critic就是在做对策略的评估，也就是 $Q_{w}(s, a) \approx Q^{\pi_{\theta}}(s, a)$ 。基于这种想法，策略梯度的更新公式如下所示

最低0.47元/天解锁文章

8 条评论

不值一提咕咕鸽 2024.02.15
(2) 定义DDPGAgent和DDPG的集合代码77行，`all_pol_acs.append(self.agents[i].Actor(observations[:, i]).detach())` 这里的意思是用其他智能体现在的策略更新经验池抽出来的原来的策略，另一个(资料)[https://zhuanlan.zhihu.com/p/346065117]认为只更新当前演员的策略，其他的不变

断情冢 2023.06.01
大佬MADDPG可以理解为同时训练n个DDPG么，每个DDPG q接收全部可观的，actor接收o
- 登徒子coder回复断情冢 2024.01.19
  我感觉是

张怼怼√ 2022.03.23
大佬，你好，MADDPG后续的代码你有没有继续研究下去呀[face]emoji:008.png[/face]我看git里面好像不太全，是不是不能直接work呢
- 登徒子coder回复张怼怼√ 2024.01.19
  能直接运行吗
- 张怼怼√回复彩虹糖梦 2022.03.23
  好吧，好像代码不太全哈哈哈
- 彩虹糖梦回复张怼怼√ 2022.03.23
  [face]emoji:010.png[/face]没有在继续看下去了