【李宏毅深度强化学习笔记】8、Imitation Learning

最新推荐文章于 2025-11-10 19:09:21 发布

原创

最新推荐文章于 2025-11-10 19:09:21 发布 · 5k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度强化学习 #Imitation Learning #Behavior Cloning #Inverse Reinforcement Learning

【李宏毅深度强化学习笔记】1、策略梯度方法（Policy Gradient）

【李宏毅深度强化学习笔记】2、Proximal Policy Optimization (PPO) 算法

【李宏毅深度强化学习笔记】3、Q-learning（Basic Idea）

【李宏毅深度强化学习笔记】4、Q-learning更高阶的算法

【李宏毅深度强化学习笔记】5、Q-learning用于连续动作 (NAF算法)

【李宏毅深度强化学习笔记】6、Actor-Critic、A2C、A3C、Pathwise Derivative Policy Gradient

【李宏毅深度强化学习笔记】7、Sparse Reward

【李宏毅深度强化学习笔记】8、Imitation Learning（本文）

最低0.47元/天解锁文章

5 条评论

z樾 2023.04.28
相当于专家数据是先验数据，与通过actor得到的数据一起算出奖励，设定就是专家奖励大于actor，但是可以通过训练不断逼近专家奖励。若结果已经相当好了，则此时就将actor作为所选策略了不知道是不是这样

小田园 2020.04.17
强制的认为expert所采取得到的汇报是最好的，如果当actor能在此时的Reward Function达到很高的reward时，修改Reward Function（还是要求expert的得分一定要高于actor），让actor根据新Reward Function去更新出更强的actor。是不是意味着我们不仅要去改进actor，还要去改进expert？
- Swag-z回复小田园 2022.07.23
  我认为当actor能够达到很高的reward后，就算做出师，可以把expert丢掉了，后面就是强化学习的内容，就不用expert了
- tomljh1975回复小田园 2020.05.21
  [reply]weixin_47137045[/reply]其实就是GAN的训练过程:一般先提高判别器的能力,这里就是Reward Function的能力,提高的意思是多训练几步。然后锁定判别器，再训练生成器，这是就是actor。训练一个锁定另一个网络，两者交替进行。--用哲学的话来讲就是螺旋式的上升
- qqqeeevvv回复小田园 2020.04.17
  [reply]weixin_47137045[/reply]不是的，expert不用再改进了。举个例子：假设expert在Reward Function_1下得到80分，而actor在Reward Function_1一开始只能得到6分，经过训练后actor在Reward Function_1能得到75分。则现在修改Reward Function_1为Reward Function_2。假设现在expert在Reward Function_2下得到78分，而actor在刚才学到的技巧放到Reward Function_2一开始只能得到7分，但经过训练后，actor在Reward Function_2也能得到70+分。则继续修改Reward Function_2为Reward Function_3 一直这样循环下去…… 所以可以看到，expert在这个过程是不变的。不管Reward Function怎么变，expert在这个过程总会得到相对比较高的分数，因为它已经是默认表现最好的了。

评论 5

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。