An investigation of model-free planning

最新推荐文章于 2024-11-21 12:10:23 发布

原创最新推荐文章于 2024-11-21 12:10:23 发布 · 241 阅读

0 ·

CC 4.0 BY-SA版权

本文探讨了在强化学习(RL)中通过无模型方法学习规划的可能性。研究发现，使用通用神经网络架构（如堆叠卷积LSTM）的代理能够展现出与基于模型的规划器相似的特性，包括在组合和不可逆状态空间中的泛化能力、数据效率及利用额外思考时间的能力。

摘要

强化学习(RL)领域正面临着越来越多的组合复杂性领域的挑战。对于RL代理来说，要解决这些挑战，它必须能够有效地进行计划。以前的工作通常使用环境的显式模型，并结合特定的规划算法(如树搜索)。最近，人们提出了一种新的学习规划的方法，通过在函数逼近器(如树状结构神经网络)中通过归纳偏差提供规划的结构，并使用无模型RL算法进行端到端的训练来学习如何规划。在本文中，我们更进一步，并通过经验证明，一种完全无模型的方法，除了标准的神经网络组件(如卷积网络和LSTMs)之外，没有特殊的结构，可以学习展示与基于模型的规划器相关的许多典型特征。我们衡量我们的代理在规划方面的有效性，包括它在组合和不可逆状态空间中泛化的能力、它的数据效率，以及它利用额外思考时间的能力。我们发现我们的代理具有许多人们可能期望在规划算法中找到的特征。此外，它在挑战组合领域(如Sokoban)方面超越了目前的技术水平，并优于其他利用对规划的强烈归纳偏见的无模型方法。

1. 介绍

人工智能的愿望之一是能够自适应地、动态地形成计划来实现其目标的认知代理。传统上，这个角色由基于模型的RL方法来完成，RL方法首先学习环境系统动态或规则的显式模型。然后将规划算法(如树搜索)应用到所学习的模型中。基于模型的方法具有潜在的强大功能，但在复杂和高维环境中使用已学习的模型进行伸缩具有挑战性(Talvitie, 2014;Asadi et al.， 2018)，尽管最近在这方面取得了进展(Buesing et al.， 2018;Ebert等，2018)。

最近，人们提出了各种各样的方法来学习隐式计划，完全通过无模型的培训。这些无模型规划代理利用一种特殊的神经结构来反映特定规划算法的结构。例如，神经网络可以用来表示搜索树(Farquhar et al.， 2017;Oh等，2017;Guez等，2018)，正向模拟(Racaniere等，2017;或动态规划(Tamar et al.， 2016)。其主要思想是，给定适当的规划归纳偏差，函数逼近器可以学习利用这些结构来学习自己的规划算法。这种算法函数近似可能比显式的基于模型的方法更灵活，允许代理根据特定环境自定义规划的性质。

本文探讨了规划可能是隐式发生的假设，即使函数逼近器对规划没有特殊的归纳偏差。前期工作(Pang &Werbos, 1998;Wang et al.， 2018)支持基于模型的行为可以用一般的递归架构学习的观点，通过多个离散步骤平摊规划计算(Schmidhuber, 1990)，但是仍然缺乏对其有效性的全面演示。受深度学习的成功和神经表示的普遍性的启发，我们的主要想法只是提供一个具有高容量和灵活表示的神经网络，而不是镜像任何特定的规划结构。考虑到这种灵活性，网络原则上可以学习自己的近似规划算法。具体来说，我们利用了一系列基于广泛使用的函数逼近架构的神经网络:堆叠卷积lstm (ConvLSTM by Xingjian et al.(2015))。

也许令人惊讶的是，一种纯粹的无模型强化学习方法可以在多个领域取得如此成功。这似乎需要明确的规划。这就提出了一个很自然的问题:计划是什么?一个无模型的RL代理是否可以被认为是计划的，没有环境的任何显式模型，也没有该模型的任何显式模拟。

事实上，在许多定义中(Sutton et al.， 1998)，规划需要使用模型进行一些明确的考虑，通常是通过考虑可能的未来情况，使用正向模型来选择适当的行动序列。这些定义强调了机制的本质(明确的前瞻性)，而不是它产生的效果(前瞻性)。然而，对于一个从具有挑战性的领域的例子中训练出来的深度网络，如何以近乎完美的保真度来模拟这样一个规划过程呢?规划的定义是否应该排除产生的代理作为有效规划的可能性。

在本文中，我们没有将自己绑在一个依赖于代理内部工作的定义上，而是采用行为主义的方法将规划作为代理交互的属性来度量。我们特别考虑了具备规划能力的代理应该具备的三个关键特性。

首先，一个有效的规划算法应该能够相对容易地推广到不同的情况。这里的直觉是，一个简单的函数逼近器很难准确地预测一个组合空间的各种可能性(例如所有棋局的位置值)，但是规划算法可以执行局部搜索来动态计算预测(例如通过树搜索)。我们使用程序环境(如random gridworlds、Sokoban (Racaniere et al.， 2017)、Boxworld (Zambaldi et al.， 2018)来测量这个属性，其中包含大量可能的布局组合空间。我们发现我们的无模型规划代理实现了最先进的性能，并且显著优于更专业的无模型规划体系结构。我们还研究了外推到训练集中的问题之外的更困难的一类问题，并再次发现我们的体系结构能够有效地执行，特别是在更大的网络规模下。

其次，规划代理应该能够有效地从相对较少的数据中学习。基于模型的RL通常是由一种直觉驱动的，即模型(例如象棋规则)通常比直接预测(例如所有象棋位置的值)学习得更有效。我们通过在小数据集上训练我们的无模型规划器来度量这个属性，并发现我们的无模型规划代理仍然执行得很好，并且有效地将其推广到一个剩余的测试集。

第三，有效的规划算法应该能够充分利用额外的思考时间。简单地说，算法思考得越多，它的性能就应该越好。在错误决策(例如死亡或死胡同)产生不可逆转后果的领域中，此属性可能尤其重要。在Sokoban中，我们通过在一集的开始(代理提交策略之前)添加额外的思考时间来度量这个属性，并发现我们的无模型规划代理解决了更多的问题。

总之，我们的研究结果表明，没有特定的计划启发的网络结构的无模型代理可以学习展示计划的许多行为特征。本文介绍的体系结构说明了这一点，并展示了一种简单方法的惊人功能。我们希望我们的发现能够拓宽对更通用架构的搜索，从而能够处理更广泛的规划领域。

2. 方法

首先对本文所采用的主要网络体系结构进行描述。然后简要说明我们的训练设置。更多细节见附录C.

2.1模型体系结构

我们希望模型能够表示和学习功能强大但未指定的规划过程。我们没有对特定的规划算法编码强烈的归纳偏差，而是选择了能够表示非常丰富的函数类的高容量神经网络架构。在DRL的许多工作中，我们利用卷积神经网络(已知利用视觉域固有的空间结构)和LSTMs(已知在序列问题中有效)。除了这些微弱但常见的归纳偏差之外，我们尽可能保持我们的架构的通用性和灵活性，并相信标准的无模型强化学习算法能够发现规划的功能。

2.1.1 基础结构

该体系结构的基本元素是ConvLSTM(邢建等，2015)，这是一个类似于LSTM的神经网络，但具有三维隐藏状态和卷积操作。RNN 与ConvLSTM形成栈。对于深度为D的栈，状态s包含了每个模型中所有块状态cd和输出hd。模型权重不共享。给定一个状态和输入向量i，下一个状态可以被计算$$
s^{\prime}=f_{\theta}(s, i)
$$

3. 规划域

我们的领域被正式指定为RL问题，其中agent必须通过与环境交互获得的奖励反馈来学习(Sutton et al.， 1998)。我们关注的组合领域，其中的情节是程序生成。在这些域中，每个事件都是用伪随机配置实例化的，因此解决一个事件通常需要某种形式的推理。大多数环境都是完全可观察的，具有简单的2D视觉特征。附录a对这些领域进行了说明和说明。除了下面列出的规划领域外，我们还对一组Atari 2600游戏进行了控制实验(Bellemare et al.， 2013)。

4.2 迭代计算

规划机制的一个可取特性是，在不看到新数据的情况下，通过额外的计算可以扩展它们的性能。虽然RNNs(以及最近的ResNets)原则上可以学习一个可以迭代得到结果的函数(Graves, 2016;Jastrzebski等，2017;(Greff et al.， 2016)，目前还不清楚在我们的RL域中训练的网络是否学会以这种方式随时间摊销计算。为了测试这一点，我们在Sokoban(未经过滤的)使用经过训练的网络，并测试了他们通过额外步骤改进结果的能力。我们在每一集的开始都引入了no-op操作，最多10个额外的计算步骤，其中agent s操作被固定为不影响环境。对于DRC网络，我们在中等难度水平上(约5%)观察到明显的性能改进(参见图4)。这表明网络已经学会了任务的可伸缩策略，通过一系列相同的步骤来计算和细化任务，从而展示了规划算法的一个基本特性。

4.3 泛化

在组合域中泛化是一个核心问题。给定对环境中配置的有限公开，模型在不可见场景下的性能如何?在监督设置下，大型柔性网络具有过拟合能力。因此，在使用高容量网络时，一个担忧是，它们可能会过度适应任务，例如通过记忆，而不是学习一种可以推广到新情况的策略。最近在SL (Supervised Learning)中的实证研究表明，对于大型网络的泛化还没有很好的理解(Zhang et al.， 2016;Arpit等人，2017)。尽管最近的工作(Zhang et al.， 2018a;b;Cobbe等人(2018)已经开始探索训练数据多样性的影响。我们在概化空间中探索了两个主轴。我们改变了环境的多样性以及模型的大小。我们在不同的数据体制下对DRC体系结构进行了训练，通过限制训练过程中唯一的Sokoban级别的数量，类似于SL，训练算法在这些有限的级别上迭代多次。我们要么在大型(900k级)、中型(10k级)或小型(1k级)集上进行培训。对于每个数据集大小，我们将较大版本的网络DRC(3,3)与较小版本的DRC(1,1)进行比较。结果如图5所示。在所有情况下，较大的DRC(3,3)网络的泛化效果都优于较小的DRC(3,3)网络，无论是绝对值还是泛化差距。特别是在介质条件下，DRC的概化gap3为6.5% (3,3)，DRC为33.5%(1,1)。我们在Boxworld环境中进行了类似的实验，观察到非常相似的结果(见图6c和附录图13)。纵观这些领域和实验，有两个发现值得特别注意。首先，与模拟SL实验不同的是，减少训练级别的数量并不一定能提高训练集中的性能。在1k级别上训练的网络在水平解的分数方面表现得更差。我们认为这是由于低多样性体制下的探索问题:随着层次的增加，训练代理面临着一个自然的课程来帮助它向更困难的层次发展。另一种观点是，更大的网络可能会超出培训水平，但前提是它们在这些水平上取得了成功。虽然SL中损失的本地最小值实际上不是一个问题，但是策略空间中的本地最小值可能是有问题的。

从一个经典的优化角度来看，一个令人惊讶的发现是，在我们的实验中更大的网络(Sokoban &Boxworld)遭受过度学习的低数据比小同行政权(参见图6)。然而,这是符合最新发现(Zhang et al ., 2016)在SL的泛化模型驱动的体系结构和性质的数据,而不是简单地作为一个数据集的网络容量和大小的结果。事实上，我们还通过模仿专家策略，以一种纯粹监督的方式训练了相同的网络。我们在比较测试集上的网络分类精度时发现了类似的结果，DRC(3,3)能够更好地泛化，即使两个网络在小数据集上有类似的训练错误。

推论

我们发现的策略的通用性的另一个方面是它如何在训练分布之外执行。在Sokoban中，我们对DRC(3,3)和DRC(1,1)网络进行了测试，测试级别上的box数量比训练集中的要多。DRC(3,3)在7个盒子上的性能下降分别为3.5%和18.5%(1,1)。相比之下，Racaniere等人(2017)的研究结果显示，在同样的设置下，将结果外推到7个框时，损失了34%。

5. 结论

我们希望赋予agent在组合域中有效规划的能力，而在组合域中，策略的简单记忆是不可行的。一个首要的问题是关于规划本身的性质。规划所需的计算是否可以只使用无模型的RL来学习，而这是否可以通过具有弱归纳偏差的通用神经网络来实现?或者是否需要专门的规划机制来显式地编码现有的规划算法，或者隐式地反映它们的结构?

在本文中，我们研究了在具有组合和不可逆状态空间的过程规划任务中，使用无模型RL训练的各种不同的神经结构。我们的研究结果表明，基于循环卷积结构的通用大容量神经网络在学习规划方面尤其有效。这种方法在几个领域产生了最先进的结果，优于我们测试的所有专业规划体系结构。我们的泛化和缩放分析，以及研究领域的过程性，表明这些网络学习了一种适合该领域的近似规划算法。算法函数逼近器似乎可以动态地计算其计划，经过许多步骤摊销，因此额外的思考时间可以提高其性能。最近在监督学习背景下的工作促使我们重新思考大型神经网络模型是如何推广的(Zhang et al.， 2016;Arpit等人，2017)。

我们的结果进一步证明了传统的一般化观点和模型大小之间的不匹配。当我们的规划代理在一个组合状态空间中对少量场景进行训练时，其惊人的效率表明，任何新理论都必须考虑模型的算法函数逼近能力，而不是简单地度量模型的复杂性。最终，我们希望从我们的代理中获得更多的通用性和可伸缩性，而无模型规划是否能够有效地增强真实世界复杂性的学习环境还有待观察。