EmbodiedRAG: Dynamic 3D Scene Graph Retrieval for Efficient and Scalable Robot Task Planning

摘要:最近在大型语言模型(LLMs)方面的进展推动了机器人在真实开放环境中的规划取得了令人兴奋的进步。三维场景图(3DSGs)为基于LLM的规划器提供了一种紧凑且语义丰富的环境表示,展现出极大的潜力。然而,随着机器人的环境规模(例如,跟踪的实体数量)扩大以及场景图信息复杂性增加(例如,维护更多属性),直接将3DSG提供给基于LLM的规划器变得不可行,因为LLMs存在输入令牌数量限制和注意力偏差。受检索增强生成(RAG)方法成功的启发,这些方法通过检索与查询相关的文档片段来实现LLM问题解答,我们将这一范式适配到具身领域。具体来说,我们提出了一种三维场景子图检索框架,称为EMBODIEDRAG,并利用该框架增强基于LLM的规划器以执行自然语言机器人任务。值得注意的是,我们检索的子图能够适应环境变化以及任务相关性变化,同时机器人执行其计划。我们展示了EMBODIEDRAG显著减少输入令牌数量(减少一个数量级)和规划时间(平均每次规划步骤的时间减少高达70%),并提高了AI2Thor模拟家庭任务中单臂移动操纵器的成功率。此外,为了强调其在真实环境中边缘部署机器人的性能优势,我们在带有机械臂的四足机器人上实施了EMBODIEDRAG。

1 引言  

近年来,3D场景图(3DSG)的研究取得了令人振奋的进展(例如,[1, 2, 3, 4]),以及基于大型语言模型(LLM)的规划(例如,[5, 6, 7, 8, 9, 10])正在推动机器人任务规划和执行扩展到丰富的大规模环境和复杂的长期任务。具体而言,3D场景图使机器人能够保持其操作环境的丰富、语义化且紧凑的表示,从而可以序列化并用于基于LLM的规划器。因此,通过语言作为桥梁,我们可以将基于LLM的规划器与机器人的操作环境相结合,利用LLM的优势(例如,常识推理)进行有效规划。  
然而,当机器人的环境规模扩大(例如,从房间到住宅到办公楼)或实体信息的复杂性增加时(例如,为每个实体维护更多属性或详细描述),直接将3DSG提供给基于LLM的规划器会带来一些挑战。几乎可以立即发现,3DSG将占用LLM的输入令牌限制(例如,GPT-4o的令牌限制为128k)。即使输入令牌数量不是限制,减少输入令牌数量在提高机器人规划速度方面也具有重要潜力。其次,LLM的注意力能力方面的不足;研究表明,LLM 会因输入提示中存在的与任务无关的信息而分心 [11, 12],并且对输入提示开头或结尾提供的信息具有位置偏差 [13, 14] 。这些限制使得 LLM 难以识别完成任务所需的重要实体和环境变化。移除与任务无关的信息也消除了存在于 LLM 中的 3DSG 相关不确定性,这可能会导致更稳健的计划。为了解决这些挑战,我们从检索增强生成(RAG)方法的成功中汲取灵感(概述见 [15]),这些方法为 LLM 的问答检索任务相关的文档片段,并将这一范式适配到我们所研究的具身领域中。具体来说,我们试图从机器人 3DSG 中检索与任务相关的子图,即仅包含完成任务所需的实体、属性和关系。重要的是,检索到的子图应适应环境的变化和任务相关性的变化。例如,如果有新的任务相关信息被添加到 3DSG 中,提供给 LLM 的子图应该整合这些新信息。此外,在重新规划过程中,基于 LLM 的规划器可能会意识到,由于机器人操作环境中的存在(或缺失),不同的实体可能有助于完成任务(即,检索到的子图应结合来自规划器的反馈)。

贡献声明。我们的主要贡献是一个 3D 场景子图检索框架,称为 EMBODIEDRAG,我们将其与基于 LLM 的机器人任务规划器相结合。我们的关键创新在于为具身领域调整了 RAG 范式,并提出了一系列方法,包括预检索任务相关的实体和属性、对 3DSG 进行索引、检索和绑定到 3DSG、生成计划以及结合规划器反馈进行检索。据我们所知,这是首次为 LLM 的任务规划提取相关子图的工作,该方法能够处理时变场景图(例如 3DSG 可在运行时动态构建),无需 LLM 解析或操作整个 3DSG 即可完成任务规划,并且与显式 3DSG 的格式(例如层次结构、开放词汇表、属性类型)无关。我们展示了 EMBODIEDRAG 的能力显著减少输入令牌数量和规划时间(令牌累计使用量减少高达90%,平均规划步骤时间减少70%),同时提高了AI2Thor模拟家庭任务的规划质量和成功率。我们还在一个带有操控器的四足机器人平台上实现了EMBODIEDRAG,并与使用完整3DSG的代理进行比较(后者经常因令牌数量过多而马上不堪重负)。

图1:左:EMBODIEDRAG框架的示意图。随着自然语言任务的到来,大型语

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值