摘要
本文介绍了一种名为“导航世界模型”(NWM)的新方法,用于预测基于过去观察和导航动作的未来视觉观测结果。该模型采用了条件扩散变换器(CDiT),并使用了大量的机器人和人类的自我中心视频进行训练。在熟悉的环境中,NWM可以规划出实现目标的导航轨迹,并且能够动态地纳入约束条件。实验表明,NWM可以在从头开始或通过排名外部策略采样到的轨迹中有效地规划轨迹。此外,NWM还可以利用其学习到的视觉先验知识,在未知环境中模拟想象中的轨迹,从而成为下一代导航系统中灵活而强大的工具。
开源地址:comming soon~
论文方法
方法描述
本文提出的导航世界模型(Navigation World Models,简称NWM)是一种基于条件扩散变换器(Conditional Diffusion Transformer,CDiT)的世界模型,用于学习环境中的时空动态,并在给定目标状态下规划出达到该状态的最佳路径。NWM将当前状态和导航动作作为输入,产生下一个状态。它通过使用一个预训练的变分自编码器来压缩视觉观测,并利用交叉注意力层来引入时间信息。此外,为了解决连续动作与时间之间的纠缠