Franka 科研版机器人二次开发和研究案例——加州大学伯克利分校人工智能研究中心

最新推荐文章于 2025-04-10 21:55:44 发布

原创

最新推荐文章于 2025-04-10 21:55:44 发布 · 993 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#机器人 #Franka FR3 #人工智能 #服务器

集智联机器人已经正式成为德国 Franka Robotics GmbH中国区金牌战略合作伙伴，负责Frank Robotics在中国区域的关于Franka机器人的销售、渠道拓展、技术支持等工作。

本次系列介绍Franka科研版机器人FR3在科学研究中的案例。本文为中文翻译，请参考原文，论文解释权和所有权属于原作者。

LLARVA：视觉-动作指令调优增强机器人的学习

加州大学伯克利分校人工智能研究中心

Project Webpage: https://llarva24.github.io/ar Xi v: 24 06 .1 18 15 v1 [c s. RO ]2

摘要

近年来，指令调谐的大型多模态模型（lmm）在一些任务上取得了成功，包括图像字幕和视觉问题回答；然而，利用这些模型对机器人技术来说仍然是一个开放的问题。以前用于机器人应用的lmm已经在语言和动作数据方面进行了广泛的训练，但它们在不同环境下的泛化能力往往不被期望。为了解决这个问题 , 我们引入了LLARVA，这是一种使用新的指令调整方法训练的模型，它利用结构化提示来统一一系列机器人学习任务、场景和环境。此外，我们还表明，预测中间的二维表示，我们称之为视觉痕迹，可以帮助进一步对齐机器人学习的视觉和动作空间。我们从开放的x-实施例数据集中生成8.5M的图像-视觉跟踪对，以预先训练我们的模型，我们在RLBench模拟器和一个物理Franka 7自由度机器人中评估12个不同的任务。我们的实验产生了很强的性能，

证明了LLARVA使用二维和语言表示，与一些当代基线相比表现良好，并且可以在各种机器人环境和配置中推广。

关键词：lmm，视觉动作指令调整，机器人学习

1介绍

最近，指令调优的大型多模态模型（LMMs），如指令BLIP[1]、DouultGPT[2]、LLaVA [3,4]、

PALM [5]等已经在各种视觉和语言任务上展示了最先进的性能。然而，现有的用于机器人

[6,7,8,9]的lmm并不总是在各种具体化设置中表现出相同的成功和一致性。这可能是由于在机器人技术中遇到的独特挑战，如现实世界环境的可变性，机器人之间的差异，以及可靠地控制动作的需要。由于lmm已经被证明是成功的，部分原因是由于多模态指令调优，因此在机器人技术设置中利用这种技术也是很自然的。在这里，我们提出了一种视觉-动作指令调优方法，它可以弥补语言模型的基本训练前目标——下一个单词预测——和使模型能够处理各种机器人设置的目标之间的差距。

在这项工作中，我们介绍了我们的机器人视觉和动作（LLARVA）的大型导航模型，这是一个用于机器人应用程序的开源指令调谐LMM，可以在各种环境和机器人配置中有效地推广。我们的关键思想是制定一种新的指令提示符，它将机器人类型、任务、场景配置和控制机制封装在一个适合当代lmm的自然语言前缀中。我们提出了一个指令调优过程。

图1：LLARVA的概述。我们介绍了一种新的指令调优方法，它利用结构化提示来统一一系列机器人学习任务、场景和环境，以及二维视觉轨迹，以进一步对齐视觉和动作空间。该模型通过一个语言指令工作，该指令包含机器人模型、控制模式、机器人任务、本体感受信息和预测步数 , 并输出下一个机器人动作(s)和剩余部分的视觉跟踪。

针对机器人领域量身定制：当给出一个描述机器人模型、控制模式、机器人任务和本体感受信息的指令时，该模型需要根据给定的自然语言提示来预测未来的行动。这种架构允许我们利用结构化的语言提示作为机器人感知和控制的“通用语 ”（见图1）。然而，对齐视觉和动作模式以产生有意义的机器人输出仍然不是一项简单的任务。虽然最近的机器人模型使用了体素和点云等三维表示来克服这一问题，但这些表示很难合并到大多数现有的开源lmm中，因为它们通常接受单一的图像加语言作为输入。由于这些原因，我们使用了二维图像，它很容易缩放并与现有的lmm集成。我们发现，预测一个中间的二维表示，我们称之为视觉痕迹，可以帮助在不同的机器人和任务配置中对齐视觉和动作空间。特别地，我们生成了一个末端执行器的二维视觉轨迹（投影），并迫使模型与机器人的下一个动作一起预测这个轨迹。这种路径点预测有助于将每个机器人动作与末端执行器的位置对齐，允许模型专注于细粒度定位，从而对机器人动作进行更准确的预测。为了实现这一点，我们使用开放的x-实施例数据集（OXE） [10]，使用这样的视觉轨迹构造指令，仔细地对动作空间、机器人类型和控制类型进行分类。通过实证研究，我们表明，我们使用结构化提示的视觉-动作指令调优方法可以导致各种机器人环境和配置的泛化。此外，我们还发现，预测视觉痕迹可以帮助进一步对齐视觉和动作空间。我们评估了LLARVA 在RLBench模拟环境中的18个不同的任务，以及使用一个真正的7自由度Franka 科研版机器人的拾取、堆叠和拆卸任务。最后，我们评估了我们的模型在RLBench中的两个机器人上的四个任务上的泛化。我们表明，使用二维和语言表示的LLARVA与几个当代基线相比表现得很好。

2视觉动作指令调整

2.1前期准备工作

lmm被设计为同时处理多种数据模式，如图像及其相应的文本描述。每个模态都被编码到一个共享的嵌入空间中，然后利用由 θ参数化的语言模型f进行推理。具体来说，一个图像是用一个预先训练过的视觉编码器进行编码的，用ϕ参数化表示为v。相应的文本描述使用固定的语言编码器进行标记化和编码。给定一个输入图像o和一个语言任务描述l，语言模型生成一个文本响应R，如下： R =f θ (vϕ(o),e γ (l)).

在本文中，我们在机器人事件的背景下使用了一个LMM，其特征是视觉观察的时间序列o1:N和本体感觉状态1:N.这里，N表示某一集的长度。值得注意的是，在机器人应用程序的lmm领域中，

输出R通常包含一个事件的一个或多个预测动作。接下来，我们将描述我们的LLARVA模型。

2.2 LLARVA模型

二维视觉痕迹。视觉痕迹在我们的视觉-动作指导方法中起着关键的作用。二维轨迹的选择是为了匹配基于图像的大型机器人数据集的高可用性，如OXE，但我们的方法也可以在三维数据中实现。为了实现视觉输入和机器人动作之间的对齐，我们预测视觉轨迹作为一个辅助任务，因为我们发现这有助于获得更好的细粒度定位，从而更准确地预测机器人动作。

我们将二维视觉轨迹定义为一个二维空间中的一系列坐标（x，y），它与输入的图像o对齐t在时间步骤t。这些坐标表示夹持器（或端部执行器、手等）的轨迹。在整个事件集。时间步长t 处的视觉轨迹为：

Pt:N= {(xi,yi) | i = t,t + 1, ...,N} (1)

这里，（xi,yi)表示情节的整个视觉轨迹中的第i-个坐标，N表示情节中的时间步长。我们注意到，语言模型解码器在将多模态输入转换为可操作的输出时是至关重要的。通过利用共享的视觉作用嵌入空间，我们的解码器产生了机器人系统可以使用的响应。

输入。对我们的LLARVA架构的输入包括两个组件。首先，我们有视觉观察ot，一个在时间步长t 时捕捉环境状态的图像。第二，我们有语言指令输入lt，它提示模型预测特定数量的后续步骤，整合具体化信息，如机器人、控制模式和先前的本体感受状态以及任务指令。具体来说，我们制定了一个指令模板，包括机器人类型R（例如，Franka，UR5，xArm）、控制模式M（例如，关节或末端执行器控制、绝对或增量控制）、任务指令I（例如，“打开抽屉 ”）、本体感觉信息S（例如，位置或速度），以及指示未来要预测的动作数量的查询，表示为n。完整说明书说明如下：

lt=“你是一个使用M]控制的机器人。任务是I，前面的步骤是S。你能预测出末端执行器的运动轨迹和下一步的动作吗？”

为了开发一个通用的和自适应的框架，能够适应对不同时间范围的任务的训练，我们增加了本体感受信息输入的灵活性。具体来说，这些信息的结构为S=t-h :t，表示过去的关节和/或抓手状态的序列。这里，h是模型之前设定的时间步数，是根据任务决定的。这种方法确保了在任务持续时间范围内的鲁棒性和适应性，从而能够对短期和长期目标进行有效的培训。

架构我们的目标是开发一个能够预测机器人动作的模型，该模型在各种机器人任务、场景和环境中表现出泛化。模型体系结构如图2所示。我们的指令调谐模型π 旨在利用当前的视觉观察ot 以及附带的语言指令lt作为输入。随后，它预测了下一个n步A的动作序列t:t+n-1以及末端执行器P未来的二维视觉痕迹t:N，从当前的步骤一直延伸到这一集的最后一步：

π (ot,lt) → At :t+n-1, Pt:N(2)

其中lt是按照上面的定义进行构造的。

在我们提出的管道中，输入图像经过冻结视觉编码器v的处理ϕ ( ) , 提取视觉特征，并通过MLP层H投射到潜在空间。这将视觉特征与语言令牌的维度相一致。同时，使用语言编码器对语言输入进行标记化。视觉标记和单词标记被连接并输入LMM f的自回归变换器 θ , 它们经过训练以进行下一个标记预测。

2.3培训

图2：LLARVA的架构。

同时保持视觉编码器和局域网-guage编码器冻结，我们使用指令调整训练自动回归变压器使用标准LoRA适配器[11]在训练前和微调阶段。每个图像ot因为有一集是伴随着一个语言指令lt，真相注释由机器人动作组成

Aˆt:t+n- 1和视觉痕迹户t:N.接下来，给定ot和lt，我们预测了下一步的动作和二维的视觉痕迹。具体来说，对于响应R，我们通过以下方程式计算目标动作和目标视觉轨迹的概率：

(3)其中， θ表示可训练的参数，xi为当前预测令牌，n≤N。为了计算损失，我们使用具有这些概率的标准交叉熵函数。接下来，我们将描述我们的两步训练过程，大规模的预训练和对下游任务的微调。

第一步：训练前的视觉动作指导。我们从一个已经经过过视觉语言（VL）任务的预先训练的LMM 开始。为了泛化机器人的任务、场景和环境，该模型在我们的大规模视觉-动作指令数据集上进行了预先训练。由于该数据集的多样性，我们的模型同时训练了多种提示变量的配置，如机器人类型R、控制模式M或任务指令I1.使用语言作为输入可以让我们能够弥补这些不同配置带来的子集之间的基本差距。这种广泛和多样的训练过程可以建立一个强大的LMM框架，可以进一步微调和调整，以处理各种机器人设置。我们注意到，这个训练前阶段不同于标准的LMM训练前阶段。与在VL中使用投影仪对齐这两种模式相反，这里我们对齐这两种模式以泛化机器人配置。

步骤2：对下游任务进行微调。与其他领域不同的是，由于对现实世界物理特性的实际考虑，机器人模型必须先对下游任务进行精细的评估。因此，我们使用一个小数据集对预训练模型进行微调，并固定配置第2.2节中定义的因素（例如，指令具有相同的机器人类型R、控制模式M等）。在看到了不同的数据样本后，模型可以很容易地适应特定的下游设置，类似于它在预训练过程中已经遇到的情况。

2.4视觉行动指令数据集

为了预训练LLARVA，我们生成了8个。来自开放的X实施例（OXE）数据集[10]的5M图像-视觉跟踪对。如补充图5所示，我们的数据集由每个子集的配置