大模型LLM | Socratic Planner: 用于具身指令跟随的基于查询零样本规划方法

24年4月来自韩国首尔大学的论文“Socratic Planner: Inquiry-Based Zero-Shot Planning for Embodied Instruction Following”。

具身指令遵循 (EIF) ,是在 3D 环境中导航和目标交互来执行自然语言指令的任务。EIF 的主要挑战之一是组合任务规划,这通常通过使用标记数据的监督学习或上下文学习来解决。

为此,引入 Socratic Planner,这是第一个无需任何训练数据即可进行推断的零样本规划方法。Socratic Planner 首先通过自我提问和回答将指令分解为任务的子结构信息,然后将其转化为高级规划,即一系列子目标。子目标按顺序执行,基于视觉的重规划机制通过密集的视觉反馈动态调整规划。

还引入了高级规划的评估指标 RelaxedHLP,以便进行更全面的评估。实验证明 Socratic Planner 的有效性,在 ALFRED 基准的零样本和少样本任务规划中,均取得了具有竞争力的表现,尤其是在需要高维推理的任务中表现出色。此外,通过结合环境视觉信息实现了对规划的精确调整。


随着人工智能和机器人技术的进步,人们越来越重视开发能够遵循自然语言指令的具身智体。具身指令遵循 (EIF) 任务 [26] 已成为此类智体的试验台,在交互式 3D 环境中根据人类指令 (例如“冲洗杯子并将其放入咖啡机”) 有效地生成和执行高级规划 (即子目标序列),仍然是挑战性的。现有的 EIF 方法主要依赖于监督学习 [2,8–10,14,17–19,21,26,28,29,31,32,38],其中具身智体在由指令和相应的、专家轨迹组成的人类注释数据上进行训练。然而,它们需要大量标记数据进行训练,并且通常难以泛化到未见过的指令或环境。最近的研究探索了在任务规划中利用大语言模型 (LLM) 的推理能力 [1,7,15,16,27,30,36,37,39]。这些方法中的大多数通过将上下文示例作为提示注入 LLM 来规划一系列子目标。虽然这种范式大大减轻了收集标记数据的负担,但基于 LLM 的 EIF 规划器 [30] 仍然需要数百个人工注释的数据才能利用上下文学习。

如图是与现有 EIF 方法比较的 Socratic Planner。Socratic Planner 通过自我提问和回答子结构信息来丰富零样本任务规划。基于问答对话,大语言模型 (LLM) 生成子目标。实线黑色箭头表示静态规划路径,虚线蓝色箭头表示在遇到执行失败时重规划路径,视觉-语言模型 (VLM) 的视觉反馈指导 LLM 修改规划。

LLM-Planner 经常在重规划时失败,因为它仅依赖一组可见目标,而这不足以解释当前的视觉状态。

Socratic Planner 由三个组件组成:Socratic 任务分解器 (STD)、任务规划器和基于视觉的 Socratic 重新规划器(VSR)。 首先,STD 采用基于查询的方法,利用 LLM 通过自我提问和回答,将指令分解为子结构信息(例如,所需的子任务、它们的顺序、每个子任务的目标对象、如何具体执行每个子任务)。

STD 中的 LLM 通过自我提问和回答来分解任务。使用问答对,任务规划器通过 LLM 合成一系列子目标,其中每个子目标要么是动作-目标对(例如,(拿起,平底锅)),要么是包含动作、目标和容器的三元组(例如,(放,平底锅,冰箱))。将Socratic Planner 与分层语言条件空间模型 (HLSM) [2] 的低级控制器集成在一起,该控制器在环境中执行这些子目标。如果智体在按顺序执行子目标时遇到失败,基于更详细的视觉信息(例如,场景的视觉描述、子目标可行性和当前场景中的失败原因),VSR 中的视觉-语言模型 (VLM) [13] 向任务规划器提供密集的视觉反馈,无需直接依赖人工或模拟数据。这最大限度地提高了 LLM 的推理能力,从而有效地调整规划。

任务中子结构信息的深度和内容因其复杂性而异。为了帮助大语言模型 (LLM) 准确推理一般体现指令遵循 (EIF) 任务的这些信息,以“要发现的事”的形式为它们提供指导。这些指令促使 LLM 考虑一些基本方面,例如识别组成子任务、它们的排序、目标对象和任务执行的具体方法。如图所示,STD 的提示包括前面提到的“要发现的事”,以及 LLM 的使命、简明的子任务解释和 3D 模拟器规则。LLM 最终生成输出即问答序列 (QA),根据提示发现子结构信息。

利用生成的 QA,任务规划器根据 LLM 生成高级规划。该规划由一系列子目标组成,其中每个子目标都是原始动作、交互目标以及可选容器的组合。

当执行出现错误,启动 VLM。假设当前子目标的目标对象是见过的,并且操作似乎有效。在这种情况下,智体认为失败是由低级控制器故障引起的,并再次重试子目标。否则,VLM 将根据从 VLM 本身获得的提示,生成反馈(即失败的原因),表示为 f。利用这种密集的视觉反馈,任务规划器最终推理修改规划并进行调整,以使其更适合环境。修改规划后,执行将从修订后的子目标恢复,低级控制器将继续执行操作序列。这个迭代过程即VSR,它使 LLM 的推理更加贴近环境。

最后,总结算法如下:

如图是一个VSR的示例:

使用 ALFRED 基准 [26] 验证 Socratic Planner 的具身指令跟随 (EIF) 能力。此基准评估从自然语言指令和自我中心视觉到长期家务任务动作序列的映射。ALFRED 数据集包含 25,000 条语言指令,描述 8,000 个专家演示,每个演示对应一个高级规划。该数据集包括 120 个场景中的七种可接受动作、108 个不同目标和七种类型的任务。数据分为训练、验证和测试部分,其中验证和测试数据集进一步分为“见过”和“未见过”子集。前者包含训练数据集中可见环境的样本,而后者包含不可见环境的样本。


如何学习大模型?

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方优快云官方认证二维码,免费领取【保证100%免费


如有侵权,请联系删除

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值