DDPG强化学习方法及代码

1、如何使用强化学习玩游戏?

        强化学习本身就是一种不断试错的的优化方法。重复做一件事无数次,从那些能够获得大量收益的行为当中进行学习。也就是model-free的方法,我们做出某个动作之后无法无法知道具体的环境状态STATE。因此只能不断地玩游戏采集环境状态样本或者从别人那里获取环境样本。

        故玩游戏有两种思路:

  1. 针对每一种状态做出最佳动作;
  2. 精心设定一组动作,按照这组动作去操作就能够获得最完美的环境状态。

        很明显,第2种才是最好的。

2、DDPG的简介

        DDPG(Deep Deterministic Policy Gradient)是一种基于深度学习的确定性策略梯度强化学习方法。是一种无模型Model-Free、离线策略Off-policy、基于Actor-Critic结构、具有目标网络的强化学习算法。适用于:具有连续动作取值的智能体在简单环境当中进行生存。最终生成:根据环境状态生成对应的动作。最终目标:每一步的动作都是最优的,因此产生的环境状态也是最优,一直到游戏通关。

3、目标网络的作用?

        目标网络用于生成确定性的动作和Return汇报,保证他们不参与梯度更新。

4、Actor Network

        这个网络的目标就是根据当前的输入状态State生成对应的动作。

# Actor Network
class Act
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值