1、如何使用强化学习玩游戏?
强化学习本身就是一种不断试错的的优化方法。重复做一件事无数次,从那些能够获得大量收益的行为当中进行学习。也就是model-free的方法,我们做出某个动作之后无法无法知道具体的环境状态STATE。因此只能不断地玩游戏采集环境状态样本或者从别人那里获取环境样本。
故玩游戏有两种思路:
- 针对每一种状态做出最佳动作;
- 精心设定一组动作,按照这组动作去操作就能够获得最完美的环境状态。
很明显,第2种才是最好的。
2、DDPG的简介
DDPG(Deep Deterministic Policy Gradient)是一种基于深度学习的确定性策略梯度强化学习方法。是一种无模型Model-Free、离线策略Off-policy、基于Actor-Critic结构、具有目标网络的强化学习算法。适用于:具有连续动作取值的智能体在简单环境当中进行生存。最终生成:根据环境状态生成对应的动作。最终目标:每一步的动作都是最优的,因此产生的环境状态也是最优,一直到游戏通关。
3、目标网络的作用?
目标网络用于生成确定性的动作和Return汇报,保证他们不参与梯度更新。
4、Actor Network
这个网络的目标就是根据当前的输入状态State生成对应的动作。
# Actor Network
class Act