DDPG算法

最新推荐文章于 2025-04-11 15:47:45 发布

闲看庭前梦落花

最新推荐文章于 2025-04-11 15:47:45 发布

阅读量939

点赞数

分类专栏：强化学习面试文章标签：算法人工智能深度学习

本文链接：https://blog.youkuaiyun.com/m0_51607165/article/details/126543991

版权

面试同时被 2 个专栏收录

17 篇文章

订阅专栏

强化学习

7 篇文章

订阅专栏

无模型的策略搜索方法分为随机策略搜索方法(如策略梯度)和确定性策略搜索方法(DDPG)
随机策略：采用随机策略，即使在相同的状态，每次所采取的动作也可能不一样。
本身自带探索，通过探索产生各种各样的数据，强化学习通过在这些好的数据中学到新知识从而改进当前的策略。

确定性策略：相同的策略，在相同的状态下，动作是唯一确定的。
确定性策略在给定状态和策略参数时，动作是固定的。也就是，当初始状态已知，使用确定性策略所产生的轨迹永远是固定的，智能体无法探索其它的轨迹或者访问其它的状态。
确定性测了利用off-policy学习方法，整个学习过程采用AC框架，Actor行动策略采用随机策略，以保证充足的探索，Cristic评估策略是确定性策略，利用函数逼近方法估计值函数。

DDPG原理：
DDPG全称深度确定性策略梯度。它是Actor-Cristic、DQN和策略梯度的结合。
(1)Deep是指利用深度神经网络逼近行为值函数，并引用了DQN的两个技巧：经验回放和独立的目标网络。
(2)Deterministic Policy Gradient(DPG)
Actor方法用来调整值； Critic方法逼近值函数：
在这里插入图片描述
Actor:参数更新方式是基于梯度上升的，该网络的损失函数是从cristic网络中获取的Q值的平均值，在实现的过程中，需要加入负号，即最小化损失函数，来与深度学习框架保持一致。
Actor输出的是一个动作；
在这里插入图片描述
Cristic：参数更新方式与DQN算法一致，就是通过最小化目标网络与现有网络之间的均值误差来更新现有网络的参数，目标网络参数是缓慢更新的。
Critic的输入有两个：动作和状态，需要一起输入到Critic中；
在这里插入图片描述