强化学习 之 DDPG

参考

1、【强化学习】DDPG(Deep Deterministic Policy Gradient)算法详解
2、Deep Reinforcement Learning - 1. DDPG原理和算法(PG、DPG、DDPG描述)
3、深度强化学习(纲要、概括总结)

简介

Deep Deterministic Policy Gradient (DDPG) 是Google DeepMind 提出的一种使用 Actor Critic 结构,但是输出的不是行为的概率,而是具体的行为,用于连续动作的预测。

DDPG 结合了之前获得成功的 DQN 结构,提高了Actor Critic的稳定性和收敛性。
在这里插入图片描述
DDPG和Actor-Critic 形式差不多,也需要有基于 策略 Policy 的神经网络 和基于 价值 Value 的神经网络。但是为了体现 DQN 的思想,每种神经网络我们都需要再细分为两个。

Policy Gradient 这边有估计网络和现实网络。估计网络(eval_net)用来输出实时的动作,供 actor 在现实中实行.;而现实网络(t

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值