参考
1、【强化学习】DDPG(Deep Deterministic Policy Gradient)算法详解
2、Deep Reinforcement Learning - 1. DDPG原理和算法(PG、DPG、DDPG描述)
3、深度强化学习(纲要、概括总结)
简介
Deep Deterministic Policy Gradient (DDPG) 是Google DeepMind 提出的一种使用 Actor Critic 结构,但是输出的不是行为的概率,而是具体的行为,用于连续动作的预测。
DDPG 结合了之前获得成功的 DQN 结构,提高了Actor Critic的稳定性和收敛性。
DDPG和Actor-Critic 形式差不多,也需要有基于 策略 Policy 的神经网络 和基于 价值 Value 的神经网络。但是为了体现 DQN 的思想,每种神经网络我们都需要再细分为两个。
Policy Gradient 这边有估计网络和现实网络。估计网络(eval_net)用来输出实时的动作,供 actor 在现实中实行.;而现实网络(t