1. Reward 问题
通常情况下,agent每一步操作有一个reward对应,但是,当reward非常稀疏时怎么办,可能三四步甚至更多才能产生reward。
1.2. reward shaping
环境有一个固定的reward,为了引导agent,需要我们自己设计规则制定reward。在设计类游戏中,人为指定的规则为:
1.2.1 增加好奇模块
在Intrinsic Curiosity Module中,输入三个值:
a
t
,
s
t
,
s
t
+
1
a_t, s_t, s_{t+1}
at,st,st+1,如果
s
^
t
+
1
\hat{s}_{t+1}
s^t+1与
s
t
+
1
s_{t+1}
st+1相差越大,则得到的奖励越大,鼓励agent采取不同的行为。
当然,为了保证每一个探索的action都是重要的,所以另外需要Feature Ext从state中抽取的特征,利用这个特征来对探索的action是否重要进行评估。
1.3. Curriculum Learning
2. Imitation learning
没有办法从环境中得到reward怎么办?
2.1 Behavior Cloning
将问题变成一个监督学习的问题,从现有的“专家”系统中学习action。
但是这个可能会有个问题,agent不知道极端情况下该怎么执行action,相当于没有负样本的情况。
2.2 Inverse Reinforcement Learning
默认experts是最佳的,设计一个reward funtion,计算结果永远要好于agent。