本文是这篇博文的注,如有需要请以其为纲
知识勘误其他笔记链接
易混知识勘误_from李宏毅P1-----Policy Gradient
易混知识勘误_from李宏毅P2——PPO\Off-policy\On-policy
易混知识勘误_from李宏毅P4——Actor-Critic/A3C
易混知识勘误_from李宏毅P5——Sparse Reward的解决方法(目标太难怎么办)
易混知识勘误_from李宏毅P6——Imitation Learning 模仿式学习
目录
1.难题:On-policy & Off-policy 有啥区别?
2.为啥训练的policy和样本的policy不一致也可以用?Importance Sampling
3.怎么理解Importance Sampling要求多次采样才能取等的限制?
4.PPO(Proximal Policy Optimization)是怎么回事?
1.难题:On-policy & Off-policy 有啥区别?
若agent与环境互动,则为On-policy(此时因为agent亲身参与,所以互动时的policy和目标的policy一致);若agent看别的agent与环境互动,自己不参与互动,则为Off-policy(此时因为互动的和目标优化的是两个agent,所以他们的policy不一致)。
两者在采样数据利用上的区别:
- On:这时要求采样所用的policy和目标policy一致,采样后进行学习,学习后目标policy更新了,此时需要把采样的policy同步更新以保持和目标policy一致,这也就导致了需要重新采样。
- Off:这种情况下,反正采样的plicy也和目标的policy不一样,所以你目标的policy随便更新,采样后的数据可以用很多次也可以。