深度强化学task05

最新推荐文章于 2025-03-24 17:24:56 发布

原创最新推荐文章于 2025-03-24 17:24:56 发布 · 200 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文探讨了稀疏奖励问题及解决方案，介绍了好奇心驱动的内在动机机制（ICM）以促进探索，并讨论了两种模仿学习方法：行为克隆和逆向强化学习，旨在克服稀疏奖励带来的挑战。

一、sparse reward
如果是复杂的问题很难会得到reward，所以要在中间的时间点给一些reward，以引导行为，但是中间加入的reward不一定就会对最终任务的完成有利，因此需要增加一个新的reward
在这里插入图片描述
这里面新的reward就是ICM，它的作用是给mechine加上“好奇心”。下面看怎么加ICM

这里面看两个state的差值，如果差值越大则奖励越大。这里面的network是单独训练的网络。
然后又有一个改进版的

这里面feature extractor的作用是把state里面无关紧要的东西过滤掉
二、imitation learning
有两种方法进行模仿学习

behavior cloning

就是监督学习的方法。缺点是容易把不好的行为学到，而且很难把所有经验都学到，而没学到的很容易失之毫厘，谬以千里。
inversed reinforcement learning

相当于是反过来，通过expert得出reward function

比如先由有经验的人玩N场游戏，再由机器玩N场游戏，将他们的序列都记录下来，然后对比得出reward function，要保证人的分数总是比机器的好，然后根据reward function 再得到新的policy function

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。