Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement

本文是LLM系列文章,针对《Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement》的翻译。

Meta DT:离线Meta RL作为世界模型解耦的条件序列建模

摘要

通用人工智能的一个长期目标是高度能干的通才,他们可以从不同的经验中学习,并归纳到看不见的任务中。语言和视觉社区通过扩大在大规模数据集上训练的基于Transformer的模型,在这一趋势上取得了显著进展,而强化学习(RL)代理在这种范式下仍然存在泛化能力差的问题。为了应对这一挑战,我们提出了元决策Transformer(Meta DT),它利用Transformer架构的顺序建模能力和通过世界模型解纠缠进行的鲁棒任务表示学习,在离线元RL中实现了高效的泛化。我们预先设计了一个上下文感知的世界模型来学习紧凑的任务表示,并将其作为上下文条件注入因果Transformer,以指导面向任务的序列生成。然后,我们巧妙地利用元策略生成的历史轨迹作为自我引导的提示,来利用架构归纳偏见。我们在预训练的世界模型上选择产生最大预测误差的轨迹段来构建提示,旨在最大限度地编码与世界模型互补的任务特定信息。值得注意的是,所提出的框架消除了在测试时对任何专家演示或领域知识的要求。MuJoCo和Meta-World基准测试在各种数据集类型上的实验结果表明,与强基线相比,Meta-DT表现出优异的少数和零样本泛化能力,同时更实用,前提条件更少。我们的代码可https://github.com/NJU-RL/Meta-DT上可用.

1 引言

2 相关工作

3 前言

4 方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值