强化学习知识要点与编程实践（6）——基于策略梯度的深度强化学习

ReEchooo

于 2021-04-10 18:40:05 发布

阅读量1.7k

点赞数 1

分类专栏：强化学习基础理论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_41773233/article/details/115531992

版权

强化学习基础理论专栏收录该内容

13 篇文章 ¥119.90 ¥299.90

订阅专栏

基于策略梯度的深度强化学习

0. 引言
1. 基于策略学习的意义
2. 策略目标函数
3. Actor-Critic算法
4. 深度确定性策略梯度(DDPG)算法
5. 编程实践

本文未经许可，禁止转载，如需转载请联系笔者

0. 引言

前一章《价值函数的近似表示（含DQN算法）》中介绍了在强化学习中如何处理状态数量多或者状态连续时的情况，其基本思路就是构建一个价值近似函数（通常是一个神经网络），输入是状态矢量（矢量的每个元素可以取连续值，元素数量即为神经网络的输入神经元个数）或状态矢量+动作，输出是V值或Q值，如下图所示。
在这里插入图片描述
依据上面的思路，这也就诞生了DQN和DDQN算法，这两种算法的区别也可以见《图解DQN，DDQN，DDPG网络》

上面的方法只解决了状态连续的问题，却没解决动作连续的问题。假设动作连续，那么由神经网络的输出神经元数量=动

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。