【李弘毅强化学习】6.Actor-Critic

最新推荐文章于 2024-12-20 08:00:00 发布

weisiqi520

最新推荐文章于 2024-12-20 08:00:00 发布

阅读量451

点赞数

CC 4.0 BY-SA版权

分类专栏：李弘毅深度强化学习笔记

本文链接：https://blog.youkuaiyun.com/weisiqi520/article/details/90267436

李弘毅深度强化学习笔记专栏收录该内容

8 篇文章

订阅专栏

本文深入探讨了A3C算法的原理与应用，从Policy Gradient和Q-learning的基础知识出发，详细解释了A2C和A3C的工作流程，以及如何通过多线程加速训练过程。此外，还介绍了Pathwise Derivative Policy Gradient算法，它能够提供更具体的行动指导，适用于连续动作空间的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这次课讲解的是A3C，我们先来复习一下policy gradient和Q-learing的知识。

这是PG的形式，我们把小括号中的内容叫做G，G是一堆马尔可夫链的收益和，并且抽样出一部分。但是这个过程是十分不稳定的，因为抽样的时候不知道具体会抽样那个马尔可夫链，例如下图，有的G是100，有的G是-10.如果抽到这两个，那么训练效果肯定是极差的。一般情况下我们都是把G全部求出来，之后再求期望，算E。但是这个过程很难实现，所以我们用的是抽样，我们现在所要想的方法就是利用基于值函数的方法来让这个G变的稳定。

V是对状态s价值的评估，Q是对状态-动作对（s，a）价值的评估，评估的方法有蒙特卡洛方法（MC）和时间差分方法（TD），我们发现Q其实就是对G取期望的结果。

我们对之前的G取期望，其实就是Q的定义，所以我们可以将Q-learning和Policy Gradient结合在一起，用Q-learing的方法去求这个G的均值，使其更加具有稳定性。之后这个b（baceline）我们可以直接使用V，因为V其实是下一步Q的均值，所以Q-V一定是有正值同时也是有负值，是满足我们要求的结果。

依据我们之前所研究的东西，我们发现我们需要两个神经网络，一个用来求V，一个用来求Q，但是训练两个网络的话，一定会有更多的参数，更容易造成过拟合，同时会造成更大的误差，这显然是我们不想要的。所以我们在想可不可以只训练一个网络来解决这些问题。

我们把Q的定义拿出来，发现Q其实是及时奖励r和下一步价值V的和的期望。如果我们把期望给去掉的话，就可以只训练一个网络求V，依然可以求出Q了。

但是因为我们把期望去掉了，会存在误差，误差的来源在于及时奖励r同样是具有随机性的，我们原来用取均值的方法消除了这个随机性，但是我们现在去掉均值了，随机性有一次出来了，这就造成了我们误差。但是好在r的随机性是十分不明显的，r只是一个动作的随机性，而G是很多动作的r加在了一起，所以这些误差可以忽略。

于是，A2C的过程就变为了：1，先用当前的策略Π来和环境互动得到很多的数据，2，对所得到的数据通过TD或者MC算法求得V的值，3，通过下面的函数求梯度，并且更新参数，求得更好的Π4，重复上面的操作，直到整个过程的每一步变得稳定。

下面来分享一下使用A2C时候的小tips：1，求π的网络和求V的网络一定会有重叠的部分（比如说之前玩游戏的例子，我们之前肯定都会用卷积神经网络来实现识别游戏中的情境）2，

其实A3C的过程和A2C的过程是十分类似的，但是由于A2C的过程是比较缓慢的，所以我们通过A3C来进行。举一个通俗的列子，就是鸣人觉得自己的修行时十分缓慢的，这时候去找卡卡西，卡卡西告诉鸣人，一个人修炼的慢，那么多搞一些影分身的话，就会快很多。所以一个A2C比较慢，那么如果搞很多A2C的模块，将其分到不同的cpu上去搞，就会快很多。