尝试一下RND

似乎效果很不好啊,一直卡在局部最优不动,好像很怕死的样子。(偶尔会死,但是不多,基本上都在中部和上面来回蠕动)
主要是俩问题,第一我没有做reward normaliztion。
第二,agent 一旦死了,reward就会很低,所以我要像文章里一样,不能搞episodic的,而是要死了直接重开。因为伽马值很高,所以来回蠕动的话,尽管每一步的reward很小,只要狗的时间足够长,还是可以得到一个不错的回报。。

上面是训练的最后一步,可以看到,尽管episode已经2690步了,还是没出第一个房间,agent只是在来回蠕动。
看来intrinsic reward也会让agent陷入奇怪的local minima啊?
其实因为chaos和组合排列的爆炸,比如怪物来回动,agent也来回蠕动,这两个之间的异步时间(相位差1S?2S?3S?)会造成极大地组合爆炸的可能性。这样,来回不规律的蠕动,就是可以产生非0的intrinsic rewards。
这里面的noise schedulling也是需要考虑的。让我再次改进吧
关于episodic 原文是这样的
In preliminary experiments that used only intrinsic rewards, treating the problem as non-episodic resulted in better exploration. In that setting the return is not

文章讨论了使用RND算法时遇到的问题,包括未进行rewardnormalization、死亡后奖励低导致的过度规避风险以及intrinsicreward可能导致的局部最优陷阱。作者强调了处理episodic和异步时间对探索性学习的影响,以及模仿人类游戏探索中的风险态度。
最低0.47元/天 解锁文章
754





