序列基于马尔可夫(Markov)过程的原理。假设起点是环境的当前状态。摆脱这种状态只有一种最优方法,它不依赖以前的路径。
我想讲述另一种替代方式,它是由谷歌团队在文章《决策转换器:通过序列建模进行强化学习》(2021 年 6 月 2 日)中提出。这项工作的主要亮点是将强化学习问题投影到条件化动作序列的建模,条件化则依据所需奖励的自回归模型。
1. 决策转换器方法特点
决策转换器是一种架构,它改变了我们看待强化学习的方式。与选择智能体动作的经典方法对比,决策制定序列问题的研究是在语言建模的框架内。
该方法的作者建议依据先前执行的动作和访问状态的上下文构建智能体的动作轨迹,就像语言模型依据普通文本的上下文构建句子(单词序列)一样。以这种方式处置问题,允许使用各种语言模型工具,只需进行最少的修改,包括 GPT(生成式预训练转换器)。
可能值得从构造智能体轨迹的原则开始。在这种情况下,我们正在专门谈论构建轨迹,而不是一系列动作。
选择轨迹表示时的需求之一是使用转换器的能力,这将允许人们在源数据中提取重要形态。除了对环境条件的描述外,还有就是智能体执行的动作和奖励。方法作者在此提供了一种相当有趣的方式来建模奖励。我们希望模型基于未来期望的奖励来生成动作,而非过去的奖励。毕竟,我们的愿望是达成一些目标。作者没有直接提供奖励,取而代之提供了一个“在途回报(Return-To-Go)”