强化学习DDPG:Deep Deterministic Policy Gradient解读

1. DDPG

DDPG方法相比于传统的PG算法,主要有三点改进:

A. off-policy策略

传统PG算法一般是采用on-policy方法,其将整体强化学习过程分为多个epoch,在每个epoch完成一次policy模型和value模型更新,同时在每轮epoch都需要根据决策模型重新采样得到该轮的训练样本。

但当同环境交互代价比较高时,这种on-policy的方式效率并不好。因此DDPG提出了一种off-policy的方法,其可以利用历史的样本,假设对于历史样本\{s,a,r,s'\},DDPG的off-policy策略会重新根据当前target policy重新估计价值。

G(s,a)=r + \gamma Q_{\phi _{targ}}(s', \mu_{\theta_{targ} }(s'))

因此DDPG的对于价值预估模型Q_{\phi }(s,a)目标为,B表示从所有历史样本上随机抽取的Batch

J(\phi )=\sum_{(s,a,r,s')\sim B} [Q_{\phi }(s,a) - (r +\gamma Q_{\phi _{targ}}(s', \mu_{\theta_{targ} }(s'))]^2

而传统on-policy策略的目标为,下式中R(s,a)可以是MC采样

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值