DDPG ,TD3,SAC

DDPG与SAC

Soft Actor Critic (SAC) 是一种以非策略方式优化随机策略的算法,在随机策略优化和 DDPG 风格的方法之间架起了一座桥梁。它不是 TD3 的直接继承者(大致同时发布),但它包含了裁剪的双 Q 技巧,并且由于 SAC 中策略的固有随机性,它最终也受益于诸如目标策略平滑之类的东西.

SAC 的一个核心特征是熵正则化。该策略被训练为最大化预期回报和之间的权衡,熵是策略中随机性的一种度量。这与探索-利用权衡密切相关:增加熵会导致更多探索,这可以加速以后的学习。它还可以防止策略过早收敛到不好的局部最优值。

DDPG与SAC的区别:

  • DDPG训练得到的是一个deterministic policy确定性策略,也就是说这个策略对于一种状态state只考虑一个最优的动作。Deterministic policy的最终目标找到最优路径。
  • Stochastic policy随机策略在实际应
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值