基于内在和外在奖励的约束强化学习
1. 引言
学习代理的主要目标通常由实验者确定。在强化学习中,其目标是最大化一个标量奖励函数,而这个奖励函数需要通过反复试验为每个任务进行设计。虽然实现能有效提升学习能力的算法很重要,但设计合适奖励函数的原则在未来会变得越来越重要。
奖励函数可分为外在奖励和内在奖励两类。在很多情况下,外在奖励除了对应重要事件的少数关键点外,其他地方都为零。尽管设计这样的稀疏奖励函数比设计密集奖励函数更容易,但稀疏奖励会阻碍学习代理的高效学习。相反,内在奖励被视为密集奖励函数,因为它通常根据代理的内部信息(如感官输入)计算得出,所以大部分时间都会给出非零奖励。虽然内在奖励通常与任务无关,但对于设计开放式系统起着重要作用。
近期,一些研究人员对带有内在奖励的学习算法进行了研究。不过,大多数先前的研究并未讨论外在奖励对内在激励学习的负面影响,目前也不清楚外在奖励如何促进或阻碍学习过程。
为解决这个问题,本文从约束优化问题的角度探讨了内在和外在奖励之间的相互作用。学习代理试图在由外在奖励给出的不等式约束下,最大化长期平均内在奖励。为此,提出了一种新的框架——约束策略梯度强化学习(CPGRL),它由策略梯度强化学习(PGRL)算法和梯度投影方法组成。为了评估CPGRL,进行了两个模拟实验:一个简单的三状态马尔可夫决策问题和一个机械臂控制任务。
2. 约束策略梯度强化学习
2.1 公式化
在每个时间步,代理观察到状态 $x \in X$,并以概率 $\mu_{\theta}(x,u): X \times U \to [0, 1]$ 执行动作 $u \in U$,其中 $\theta \i
基于内外奖励的约束强化学习
超级会员免费看
订阅专栏 解锁全文
12

被折叠的 条评论
为什么被折叠?



