本文是LLM系列文章,针对《Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement》的翻译。
摘要
通用人工智能的一个长期目标是高度能干的通才,他们可以从不同的经验中学习,并归纳到看不见的任务中。语言和视觉社区通过扩大在大规模数据集上训练的基于Transformer的模型,在这一趋势上取得了显著进展,而强化学习(RL)代理在这种范式下仍然存在泛化能力差的问题。为了应对这一挑战,我们提出了元决策Transformer(Meta DT),它利用Transformer架构的顺序建模能力和通过世界模型解纠缠进行的鲁棒任务表示学习,在离线元RL中实现了高效的泛化。我们预先设计了一个上下文感知的世界模型来学习紧凑的任务表示,并将其作为上下文条件注入因果Transformer,以指导面向任务的序列生成。然后,我们巧妙地利用元策略生成的历史轨迹作为自我引导的提示,来利用架构归纳偏见。我们在预训练的世界模型上选择产生最大预测误差的轨迹段来构建提示,旨在最大限度地编码与世界模型互补的任务特定信息。值得注意的是,所提出的框架消除了在测试时对任何专家演示或领域知识的要求。MuJoCo和Meta-World基准测试在各种数据集类型上的实验结果表明,与强基线相比,Meta-DT表现出优异的少数和零样本泛化能力,同时更实用,前提条件更少。我们的代码可https://github.com/NJU-RL/Meta-DT上可用.

订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



