之前看了一篇文章,浅浅(机器)翻译一下,关于强化学习的概念会加一些自己的理解,刚接触强化学习,对于文章的算法不做深入思考,请多批评指正。代码和视频链接:https://nicklashansen.github.io/modemrl论文https://arxiv.org/abs/2212.05698
论文整体理解
这篇论文的目的是:训练得到一个模型,可以提高完成视觉控制任务的成功率。前置条件:在低样本下
摘要
糟糕的样本效率仍然是为现实应用部署深度强化学习(RL)算法的主要挑战,特别是对于视觉运动控制。基于模型的RL通过同时学习世界模型和使用综合推出进行规划和政策改进,具有高度的样本效率。然而,在实践中,基于模型的RL的样本高效学习受到了探索挑战的瓶颈。在这项工作中,我们发现,仅利用少量的演示,就可以显著提高基于模型的RL的样本效率。然而,简单地向交互数据集附加演示程序是不够的。我们确定了利用模型学习中的演示的关键要素——策略预训练、有针对性的探索和演示数据的过采样——这形成了我们基于模型的RL框架的三个阶段。我们对三个复杂的视觉-运动控制领域进行了实证研究,发现我们的方法比之前在低数据条件下的方法完成稀疏奖励任务的成功率高出160% ~ 250%(100K个交互步骤,5个演示程序)。
理解:上述摘要说了本文的贡献是在训练模型的框架上做了改进,(1)先做了预训练 (2)针对性探索 (3)交互学习中采样演示数据
引言
强化学习(RL)为未知环境中的训练代理提供了一个有原则和完整的抽象。然而,现有算法的样本效率较低,使得它们无法适用于现实世界的任务,如机器人的对象操作。这在视觉-运动控制任务中进一步加剧,这些任务同时提出了视觉表征学习和运动控制的挑战。基于模型的强化学习(MBRL)原则上(布拉夫曼&田宁霍兹,2002年)可以通过同时学习世界模型和政策来提高RL的样本效率(Ha &施米德胡伯,2018年;施里特维瑟等人,2020年;Hafner等人,2020年;汉森等人,2022年)。使用学习模型的假想部署可以减少对真实环境交互的需求,从而提高样本效率。然而,一系列的实际挑战,如探索的困难,对有形奖励的需要,以及对高质量的视觉表现的需求,阻碍了MBRL实现其全部潜力。在这项工作中,我们试图从实际的角度来克服这些挑战,并且我们建议通过使用专家演示来加速MBRL。
理解:我们这篇文章应该知道强化学习的概念,强化学习是解决一类题,在交互中学习,提高完成任务的成功率。我们应该理解environment、agent、reward、action的概念。通过奖励机制,让agent不断迭代达到目的。
视觉-运动控制任务的专家演示可以使用人类远程操作、动觉教学或脚本策略来收集。虽然这些演示提供了学习复杂行为的直接监督,但由于人力成本和所需的专业知识程度,它们很难大量收集(Baker et al.,2022)。然而,即使是少量的专家演示也可以通过规避与探索相关的挑战来显著加速RL。先前的工作(Rajeswaran et al., 2018;Shah & Kumar, 2021; Zhan et

论文提出了MoDem框架,通过策略预训练、种子数据集和交互学习阶段,利用少量演示提升基于模型的强化学习在视觉控制任务中的样本效率。这种方法在低数据条件下,相对于以前的方法,成功率提高了160%至250%。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



