- 博客(1)
- 收藏
- 关注
原创 博客摘录「 强化学习稀疏奖励问题(sparse reward)及解决方法」2023年9月30日
st+1是很难见到的场景,进入该状态说明玩家具有好奇心。但某些稀有画面的出现是随机的,与玩家的动作无关,所以进入该状态与好奇心无关。输入(a,st),输出预测的st+1',若与实际st+1相反,就能说你采取a这种动作好奇心很大。但st+1'和st+1出现这种差异只能说与输入(a,st)有关,有可能会出现只与st有关,而跟你采取的动作a无关。为了排除这种情况,再设置一个网络,输入(st,st+1),输出at’,若at‘和实际at相近,则说明由状态st转变到st+1是由于你采取动作a而引起的。
2023-09-30 08:59:48
92
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人