1. DDPG
DDPG方法相比于传统的PG算法,主要有三点改进:
A. off-policy策略
传统PG算法一般是采用on-policy方法,其将整体强化学习过程分为多个epoch,在每个epoch完成一次policy模型和value模型更新,同时在每轮epoch都需要根据决策模型重新采样得到该轮的训练样本。
但当同环境交互代价比较高时,这种on-policy的方式效率并不好。因此DDPG提出了一种off-policy的方法,其可以利用历史的样本,假设对于历史样本,DDPG的off-policy策略会重新根据当前target policy重新估计价值。
因此DDPG的对于价值预估模型目标为,
表示从所有历史样本上随机抽取的Batch
而传统on-policy策略的目标为,下式中可以是MC采样