强化学习(十五) A3C

最新推荐文章于 2025-11-16 02:52:26 发布

文宇肃然

最新推荐文章于 2025-11-16 02:52:26 发布

阅读量2.4k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：手把手教你ML机器学习算法源码全解析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wenyusuran/article/details/98038337

手把手教你ML机器学习算法源码全解析专栏收录该内容

233 篇文章 ¥49.90 ¥99.00

订阅专栏

本文深入探讨了A3C（Asynchronous Advantage Actor-critic）算法，解决普通Actor-Critic收敛问题。A3C通过异步训练框架、网络结构优化和Critic评估点的改进，有效提升了学习效率。文章详细介绍了A3C的算法流程，并提供了算法实例，展示如何在CartPole-v0游戏中应用A3C。

　在强化学习(十四) Actor-Critic中，我们讨论了Actor-Critic的算法流程，但是由于普通的Actor-Critic算法难以收敛，需要一些其他的优化。而Asynchronous Advantage Actor-critic(以下简称A3C)就是其中比较好的优化算法。本文我们讨论A3C的算法原理和算法流程。

　　　　本文主要参考了A3C的论文，以及ICML 2016的deep RL tutorial。

1. A3C的引入

　　　　上一篇Actor-Critic算法的代码，其实很难收敛，无论怎么调参，最后的CartPole都很难稳定在200分，这是Actor-Critic算法的问题。但是我们还是有办法去有优化这个难以收敛的问题的。

　　　　回忆下之前的DQN算法，为了方便收敛使用了经验回放的技巧。那么我们的Actor-Critic是不是也可以使用经验回放的技巧呢？当然可以！不过A3C更进一步，还克服了一些经验回放的问题。经验回放有什么问题呢？回放池经验数据相关性太强，用于训练的时候效果很可能不佳。举个例子，我们

了解本专栏

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

文宇肃然 精神和物质鼓励你选一个吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。