强化学习 —— (5)Sparse Reward

1. Reward 问题

通常情况下,agent每一步操作有一个reward对应,但是,当reward非常稀疏时怎么办,可能三四步甚至更多才能产生reward。

1.2. reward shaping

环境有一个固定的reward,为了引导agent,需要我们自己设计规则制定reward。在设计类游戏中,人为指定的规则为:
在这里插入图片描述

1.2.1 增加好奇模块

在这里插入图片描述
在这里插入图片描述
在Intrinsic Curiosity Module中,输入三个值: a t , s t , s t + 1 a_t, s_t, s_{t+1} at,st,st+1,如果 s ^ t + 1 \hat{s}_{t+1} s^t+1 s t + 1 s_{t+1} st+1相差越大,则得到的奖励越大,鼓励agent采取不同的行为。

当然,为了保证每一个探索的action都是重要的,所以另外需要Feature Ext从state中抽取的特征,利用这个特征来对探索的action是否重要进行评估。
在这里插入图片描述

1.3. Curriculum Learning

在这里插入图片描述

2. Imitation learning

没有办法从环境中得到reward怎么办?

2.1 Behavior Cloning

将问题变成一个监督学习的问题,从现有的“专家”系统中学习action。
在这里插入图片描述

但是这个可能会有个问题,agent不知道极端情况下该怎么执行action,相当于没有负样本的情况。

2.2 Inverse Reinforcement Learning

在这里插入图片描述
默认experts是最佳的,设计一个reward funtion,计算结果永远要好于agent。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值