DDPG强化学习方法及代码

最新推荐文章于 2025-04-03 15:58:41 发布

谦虚且进步

最新推荐文章于 2025-04-03 15:58:41 发布

阅读量554

点赞数 3

分类专栏：人工智能学习文章标签：神经网络算法 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44992737/article/details/139028929

版权

1、如何使用强化学习玩游戏？

强化学习本身就是一种不断试错的的优化方法。重复做一件事无数次，从那些能够获得大量收益的行为当中进行学习。也就是model-free的方法，我们做出某个动作之后无法无法知道具体的环境状态STATE。因此只能不断地玩游戏采集环境状态样本或者从别人那里获取环境样本。

故玩游戏有两种思路：

针对每一种状态做出最佳动作；
精心设定一组动作，按照这组动作去操作就能够获得最完美的环境状态。

很明显，第2种才是最好的。

2、DDPG的简介

DDPG(Deep Deterministic Policy Gradient)是一种基于深度学习的确定性策略梯度强化学习方法。是一种无模型Model-Free、离线策略Off-policy、基于Actor-Critic结构、具有目标网络的强化学习算法。适用于：具有连续动作取值的智能体在简单环境当中进行生存。最终生成：根据环境状态生成对应的动作。最终目标：每一步的动作都是最优的，因此产生的环境状态也是最优，一直到游戏通关。

3、目标网络的作用？

目标网络用于生成确定性的动作和Return汇报，保证他们不参与梯度更新。

4、Actor Network

这个网络的目标就是根据当前的输入状态State生成对应的动作。

# Actor Network
class Act

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。