一、sparse reward
如果是复杂的问题很难会得到reward,所以要在中间的时间点给一些reward,以引导行为,但是中间加入的reward不一定就会对最终任务的完成有利,因此需要增加一个新的reward

这里面新的reward就是ICM,它的作用是给mechine加上“好奇心”。下面看怎么加ICM

这里面看两个state的差值,如果差值越大则奖励越大。这里面的network是单独训练的网络。
然后又有一个改进版的

这里面feature extractor的作用是把state里面无关紧要的东西过滤掉
二、imitation learning
有两种方法进行模仿学习
- behavior cloning

就是监督学习的方法。缺点是容易把不好的行为学到,而且很难把所有经验都学到,而没学到的很容易失之毫厘,谬以千里。 - inversed reinforcement learning

相当于是反过来,通过expert得出reward function

比如先由有经验的人玩N场游戏,再由机器玩N场游戏,将他们的序列都记录下来,然后对比得出reward function,要保证人的分数总是比机器的好,然后根据reward function 再得到新的policy function
本文探讨了稀疏奖励问题及解决方案,介绍了好奇心驱动的内在动机机制(ICM)以促进探索,并讨论了两种模仿学习方法:行为克隆和逆向强化学习,旨在克服稀疏奖励带来的挑战。
7273

被折叠的 条评论
为什么被折叠?



