本文是LLM系列文章,针对《Harnessing Discrete Representations for Continual Reinforcement Learning》的翻译。
利用离散表示进行连续强化学习
摘要
强化学习(RL)代理只使用来自环境的观察来做出决策,因此严重依赖于这些观察的表示。尽管最近的一些突破使用了基于向量的观测分类表示,通常称为离散表示,但很少有工作明确评估这种选择的重要性。在这项工作中,我们对离散表示在世界模型学习、无模型强化学习以及最终的连续强化学习问题中的优势进行了实证研究,我们发现离散表示的影响最大。我们发现,与传统的连续表示相比,在离散表示上学习的世界模型能够以较小的容量准确地模拟更大比例的状态空间,并且用离散表示训练的代理可以用较少的数据学习更好的策略。在持续强化学习的背景下,这些好处转化为更快的适应代理。此外,我们的分析表明,导致这些改进的是二元性和稀疏性,而不是离散表示的“离散性”。
1 引言
2 实验设置
3 离散表示的世界模型学习
4 具有离散表示的无模型RL
5 结论和未来工作
在这项工作中,我们在两个模块中探索了从离散和稀疏表示中学习的效果,这两个模块包括许多基于模型的RL算法:模型学习和无模型策略学习。在学习世界模型时,离散的多独热表示能够用更少的资源准确地建模更多的世界。在无模型的RL设置(策略学习)中,具有多独热或稀疏表示的代理学会了导航到目标并更快地适应