DDPG与SAC
Soft Actor Critic (SAC) 是一种以非策略方式优化随机策略的算法,在随机策略优化和 DDPG 风格的方法之间架起了一座桥梁。它不是 TD3 的直接继承者(大致同时发布),但它包含了裁剪的双 Q 技巧,并且由于 SAC 中策略的固有随机性,它最终也受益于诸如目标策略平滑之类的东西.
SAC 的一个核心特征是熵正则化。该策略被训练为最大化预期回报和熵之间的权衡,熵是策略中随机性的一种度量。这与探索-利用权衡密切相关:增加熵会导致更多探索,这可以加速以后的学习。它还可以防止策略过早收敛到不好的局部最优值。
DDPG与SAC的区别:
- DDPG训练得到的是一个deterministic policy确定性策略,也就是说这个策略对于一种状态state只考虑一个最优的动作。Deterministic policy的最终目标找到最优路径。
- Stochastic policy随机策略在实际应