DRL（五）——DDPG

最新推荐文章于 2025-09-12 22:06:27 发布

原创最新推荐文章于 2025-09-12 22:06:27 发布 · 443 阅读

0 ·

CC 4.0 BY-SA版权

DRL 专栏收录该内容

10 篇文章

订阅专栏

本文深入探讨了DDPG算法，一种用于解决连续动作空间问题的深度强化学习方法。文章对比了QLearning在离散动作空间的表现，并阐述了在连续动作空间中如何通过DDPG寻找最优动作。介绍了DDPG的实现原理及代码实践，为读者提供了清晰的学习路径。

在我的笔记DRL（四）——value function中，大部分讲了Q Learning的算法、存在的问题和解决的措施。这一个笔记的内容是紧接上一篇的。
为什么要提出DDPG呢？
因为不管是DQN也好，DDQN也好，都是离散动作的，就是说，action是有限的。然而很多时候action都是连续的，这时候就需要新的方法了。

在连续动作空间中怎样选择最优action呢？

我们知道，在离散动作的Q Learning中，我们是通过 $arg_a~max~Q(S',a')$ 来选择最大的Q值对应的动作a。但是如果是连续动作，我们就不太可能计算出所有动作的Q值了。
解决办法肯定是有的！

sample several actions from continuous action space。这种方法比较简单但是就是不够准确。
CrossEntropy Method
use function class that is easy to optimize, like the Normalized Advantage Function. 这种方法虽然很容易得到max，但是有其他弊端。
learn an approximate maximizer——DDPG