[强化学习]易混知识勘误_from李宏毅P2——PPO\Off-policy\On-policy

本文是这篇博文的注,如有需要请以其为纲

知识勘误其他笔记链接

易混知识勘误_from李宏毅P1-----Policy Gradient

易混知识勘误_from李宏毅P2——PPO\Off-policy\On-policy

易混知识勘误_from李宏毅P3——Q_Learning

易混知识勘误_from李宏毅P4——Actor-Critic/A3C

易混知识勘误_from李宏毅P5——Sparse Reward的解决方法(目标太难怎么办)

易混知识勘误_from李宏毅P6——Imitation Learning 模仿式学习


目录

1.难题:On-policy & Off-policy 有啥区别?

2.为啥训练的policy和样本的policy不一致也可以用?Importance Sampling

3.怎么理解Importance Sampling要求多次采样才能取等的限制?

4.PPO(Proximal Policy Optimization)是怎么回事?

5.PPO2-PPO的改进版


1.难题:On-policy & Off-policy 有啥区别?

若agent与环境互动,则为On-policy(此时因为agent亲身参与,所以互动时的policy和目标的policy一致);若agent看别的agent与环境互动,自己不参与互动,则为Off-policy(此时因为互动的和目标优化的是两个agent,所以他们的policy不一致)。

两者在采样数据利用上的区别

  • On:这时要求采样所用的policy和目标policy一致,采样后进行学习,学习后目标policy更新了,此时需要把采样的policy同步更新以保持和目标policy一致,这也就导致了需要重新采样。
  • Off:这种情况下,反正采样的plicy也和目标的policy不一样,所以你目标的policy随便更新,采样后的数据可以用很多次也可以。

2.为啥训练的policy和样本的policy不一致也可以用?Importan

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值