论文阅读-Seer：PREDICTIVE INVERSE DYNAMICS MODELS ARE SCALABLE LEARNERS FOR ROBOTIC MANIPULATION

最新推荐文章于 2025-08-18 10:19:22 发布

原创最新推荐文章于 2025-08-18 10:19:22 发布 · 1.1k 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #机器人

VLA论文阅读专栏收录该内容

5 篇文章

订阅专栏

题目：

PREDICTIVE INVERSE DYNAMICS MODELS ARE SCALABLE LEARNERS FOR ROBOTIC MANIPULATION

《预测型逆向动力学模型是可扩展的机器人操作学习器》
顶会：ICLR oral
Project page: https://nimolty.github.io/Seer/
单位：Shanghai AI Laboratory、Chinese University of Hong Kong上海人工智能实验室、香港中文大学

图1：很直观给出了这篇文章与其他方法的不同：相比于之前的方法（a）从大规模机器人数据中进行端到端的简单行为克隆，或（b）使用解耦的视觉预测和逆动力学模型（Two-Stage PIDM）来设定目标和指导行动，这篇文章提出了端到端预测逆动力学模型（End-to-End PIDM），它实现了视觉和动作之间的闭环。文章提出的模型Seer超越了sota，和没有预训练的模型进行消融实验，结果会进一步提升。

一句话总结文章：

Seer: 第一个以端到端的方式协同优化视觉和行动的方法.(End-to-End PIDM)。

再来看下文章最终的审稿意见：

审稿意见

本文介绍了Seer，这是一种预测逆动力学模型（PIDM），它使用Transformers在端到端框架中集成了视觉和动作学习，在模拟和现实世界的机器人操纵任务中实现了最先进的性能和强大的泛化能力。

审稿人一致认可了该论文的贡献，强调了其（1）全面的消融研究，（2）在模拟和现实环境中的评估，（3）可扩展性的证明，以及（4）清晰有序的演示。

在作者-审稿人讨论阶段，作者提供了详细的回复，成功地解决了许多审稿人的担忧，导致一些审稿人的分数增加。由于所有审稿人一致同意接受该论文，AC建议接受，同时鼓励作者仔细处理反驳前后的评论，以进一步加强最终版本。

笔者总结

一点想法：

文章思路很简单，相较之前工作，协同优化了视觉和Action，创新点有多创新谈不上，但是实验做的很充分，这一点从审稿人意见也可以看出。所以想发一篇质量不错的paper，把实验做充分，很重要。

一点疑问：

预训练，是用的Droid数据集，Droid数据集中是Franka机械臂，实际实验也是Franka机器人，对baseline来说对比是否公允？

下面进入正文介绍：

1 简介-INTRODUCTION

文中提到最近的工作主要分为两类：一类侧重于“行动”，如RT-1（Brohan等人，2022年）、Octo（Ghosh等人，2024年）和OpenVLA（Kim等人，2024年），它们从大规模机器人数据（如Open X-Implementation和DROID）中执行简单的行为克隆（Padalkar等人，2024:Khazatsky等人，2024.）。另一种强调“视觉”，可以通过判别或生成的方式学习表征，并以两阶段的方式与控制策略相结合。例如，R3M（Nair等人，2022年）和MVP（Xiao等人，2022）从Ego4D等大规模视频数据集中学习判别表示，而UniPI（Du等人，~~2024年~~，这里应为作者笔误，UniPI是NeurIPS 2023年的工作）、Susie（Black等人，2023年）和CLOVER（Bu等人，2024年）将生成模型开发为“世界模型”，以促进操纵策略。

作者重新审视了这些方法，并提出可扩展的操纵策略应将视觉和行动整合在一个闭环中。作者这种整合是自然和必要的，因为人类通常会协调他们的手和眼睛来操纵物体。因此，在训练和推理过程中闭合循环对于更好的可扩展动作学习器都是必要的。所以作者提出端到端的方式优化视觉和行动的方法-PIDM，并将模型命名为Seer。在训练过程中，视觉预测模块和逆动力学模块以端到端的方式协同优化。在推理过程中，PIDM确保了视觉和行动在每个执行步骤中的持续协同作用。

模型基于Transformers架构，更具可扩展性。文章引入了一个( foresight token )来预测未来的RGB图像，以及一个(action token)来估计当前和预测的未来观测之间的中间动作。这两个token都通过多模态编码器与输入RGB图像、机器人状态和语言token融合。重要的是，文章设计了一个单向注意力mask，允许action token深度整合过去和未来的预测信息，促进端到端的训练。

文章在仿真和现实世界的基准上进行了广泛的实验。在两个广泛采用的仿真基准上，LIBERO-LONG（Liu等人，2024）（10个任务）和CALVIN ABC-D（Mees等人，2022）（34个任务），文章的方法表明，与最先进的基准相比，成功率提高了10.4%，平均任务完成时长增加了0.75。文章的结果进一步表明，在长时间任务完成、看不见的场景泛化和数据效率方面具有优势。此外，文章通过900多次试验，在六个具有挑战性的现实世界任务中评估了文章的方法。利用公共大型机器人数据集DROID（Khazatsky等人，2024），文章的方法即使在干扰和有限的微调数据下也始终表现出鲁棒性。

2 相关工作-RELATED WORK

这里就是车轱辘话，又展开说了说侧重Action和侧重视觉的技术路线几个代表性工作是怎么做的。介绍了下机器人操作领域的数据集，文章使用了DROID。

3 方法-METHOD

文章模型的实现细节。

3.1 PROBLEM FORMULATION-问题描述

给定两个数据集，预训练数据集D1，和精调数据集D2，通过在D1上进行有效的预训练，然后在D2上进行微调，以提高下游任务绩效。

其中数据集的组成为：每个轨迹{（l，ot，st，at）Tt=0}提供时间步长t、语言指令l、来自眼在手上和眼在手外的两个RGB图像ot、机器人状态st和机器人动作at，其中机器人动作at包括手臂动作aarm（6D姿势）和抓取器动作aarm（打开或关闭）。

值得注意的是，当前的大型预训练机器人数据可能包含不完整的语言注释l和任务无关的动作，例如环境中的随机探索（Calvin数据集）。由于以下具体的设计选择，Seer可以有效地处理这种情况。

3.2 END-TO-END PIDM

视觉：条件视觉前瞻。 一个关键的观点是：有信息量的未来状态能够指导动作决策。因此，我们提出了条件视觉前瞻（conditional visual foresight）方法 $f{_{fore}}$ ，以有效预测未来的视觉表征。 Seer 模型的输入包括目标 g（形式可以是语言指令或机器人状态）以及历史观测 $h_t$ ，并预测时间步t+n 的 RGB 图像，记为 $\hat{o}_{t+n}$ 。

$\hat{o}_{t+n} = f_{\text{fore}}(g, h_t)$

历史观测 $h_t$ 包含了最近 m个时间步内的 RGB 图像 $o_{t-m+1:t}$ 和机器人状态 $s_{t-m+1:t}$ 。由于 RGB 图像信息丰富、数量充足且易于获取，我们选择它们作为未来状态的表征。参考（He 等人，2022），前瞻损失函数 $L_{\text{fore}}$ 在像素级别计算均方误差（MSE）。

$\mathcal{L}_{\text{fore}} = \left\| f_{\text{fore}}(g, h_t) - o_{t+n} \right\|^2_2$

动作：逆向动力学预测（Inverse Dynamics Prediction）

给定两个时间顺序的观测 $o_{t}$ 和 $o_{t+1}$ ，逆向动力学预测估计中间动作 $\hat{a}_t$ 。在此基础上，我们扩展逆动力学函数 $f_{\text{inv}}$ ，在给定目标 g、历史观测 $h_t$ 和 $o_{t+n}$ 的条件下，预测动作序列 $\hat{a}_{t:t+n-1}$ 。具体来说，我们用潜在空间中的预测表征 $\hat{o}^{l}_{t+n}$ 来替代真实图像 $o_{t+n}$ ：

$\hat{a}_{t:t+n-1} = f_{\text{inv}}(g, h_t, \hat{o}^{l}_{t+n})$

损失函数 $\mathcal{L}_{\text{inv}}$ 由机械臂动作损失 $\mathcal{L}_{\text{arm}}$ 和夹爪动作损失 $\mathcal{L}_{\text{gripper}}$ 组成：

$\mathcal{L}_{\text{inv}} = \mathcal{L}_{\text{arm}} + \lambda \mathcal{L}_{\text{gripper}}$

其中， $\mathcal{L}_{\text{arm}}$ 是 Smooth-L1 损失， $\mathcal{L}_{\text{gripper}}$ 是二元交叉熵损失（Binary Cross Entropy，BCE），超参数 λ设置为 0.01。

视觉与动作的闭环

Seer 模型将条件视觉前瞻与逆向动力学预测在训练过程中有效结合，从而充分利用机器人数据中的视觉与动作信息。具体而言， $f_{\text{fore}}$ 在目标 g和历史观测 $h_t$ 的条件下预测未来 RGB 图像 $\hat{o}_{t+n}$ 。潜在表征 $\hat{o}^{l}_{t+n}$ （最终映射为 $\hat{o}_{t+n}$ ）与 $h_t$ 共同用于通过 $f_{\text{inv}}$ 执行动作预测。由于 Seer 的模型结构，这些过程都能以端到端的方式完成。

整体训练损失函数 $\mathcal{L}$ 由前瞻损失和逆动力学损失组成：

$\mathcal{L} = \alpha \mathcal{L}_{\text{fore}} + \mathcal{L}_{\text{inv}}$

其中超参数 α 设置为 0.5。与单步动作预测相比，多步预测能提供时间上的动作一致性与对静止动作的鲁棒性（Chi 等人，2023）。在推理阶段，我们可以选择仅保留第一个预测步骤，也可以应用时间集成方法来对多个预测步骤进行加权平均。

3.3 模型架构-MODEL ARCHITECTURE

模型结构如图2所示：

Seer 由三部分组成：多模态编码器（Multi-Modal Encoder）、条件视觉前瞻（Conditional Visual Foresight）和逆向动力学预测（Inverse Dynamics Prediction）。

在多模态编码器中，Seer 引入了前瞻 token [FRS] 和动作 token [INV]。这两个 token 都会关注 RGB 图像、语言 token 和机器人状态 token，其中 [INV] 还会额外关注 [FRS]。

在条件视觉前瞻阶段，编码后的 [FRS] 与新的掩码 token 一起用于重建未来的 RGB 图像。

在逆向动力学预测阶段，编码后的 [INV] 以及其他 token 用于推测中间动作。

输入标记器（Input Tokenizers） 如图 2 所示，模型处理三种类型的输入：语言、图像和机器人状态。我们为每种模态分别使用不同的编码器进行标记化处理。对于语言输入，我们首先对文本进行分词，然后使用 CLIP 文本编码器（Radford 等，2021）来获取文本嵌入，并通过线性层将其投影到潜在空间中。

对于图像输入，首先将图像进行切块（patchify），再通过一个预训练的视觉 Transformer（ViT，He 等，2022）生成视觉嵌入。由于 ViT 会为每张图像生成数百个嵌入，这给 Transformer 主干网络带来了显著的计算负担，而且许多视觉信息与操作任务无关，因此我们采用 perceiver 重采样器（Alayrac 等，2022）提取与任务相关的视觉特征，并减少图像 token 的数量。

对于机器人状态，我们使用一个多层感知器（MLP）将其编码为状态 token。

多模态编码器（Multi-Modal Encoder） 我们模型中的多模态编码器基于 GPT-2 风格的 Transformer 架构。在将序列化的语言-图像-状态对输入 Transformer 之前，我们会在每个时间步添加读取 token [INV] 和 [FRS]。这些读取 token 会关注来自不同模态的嵌入，分别作为用于条件视觉前瞻和逆向动力学预测的图像和动作潜变量。为了引入时间信息，我们还为每个时间步的 token 添加了可学习的位置嵌入。

[FRS] token 用于实现条件视觉前瞻，对应于公式中提到的未来图像表示 o^t+nl\hat{o}^l_{t+n}o^t+nl。它关注语言、历史图像和状态 token。

相比之下，[INV] token 则基于预测的未来视觉信息进行逆向动力学预测，关注输入 token，特别是前瞻 token [FRS]。

Transformer 编码器中这种特殊的单向注意力掩码（见图 2）带来了两个好处：

有助于 [INV] token 在多层网络中深入融合过去与未来的信息；

实现了在潜在空间中融合后的端到端训练范式。

读取解码器（Readout Decoders） 由多模态编码器生成的动作和图像潜变量会通过读取解码器预测图像和动作。[INV] 和 [FRS] 两个读取 token 会被送入解码器。

动作解码器使用 MLP 将动作潜变量转换为动作向量 ata_tat。

图像解码器则采用 ViT（He 等，2022）作为基础，通过输入图像潜变量和掩码 token，输出每个掩码位置对应的图像 patch 重建内容。

3.4 实现细节-IMPLEMENTATION DETAILS

训练（Training） 训练目标，即条件视觉前瞻（Conditional Visual Foresight）和逆向动力学预测（Inverse Dynamics Prediction），在预训练与微调阶段保持一致。但在模型配置上，两个阶段之间存在两个关键区别：

在机器人预训练数据集中，语言指令经常缺失。在这种情况下，预训练阶段会使用时间步 t+n+1t + n + 1t+n+1 的机器人状态 token作为目标。此时，FRSFRSFRS 会关注（attend）这个机器人状态 token，而不是语言 token，从而确保 FRSFRSFRS 能够获得清晰的目标信息。
预训练数据中可能包含随机或无意义的行为，例如环境探索等。因此，为了防止模型过拟合于某些特定行为，预训练时 INVINVINV 和 FRSFRSFRS token 不会关注历史的图像和机器人状态 token。

推理（Inference） 在推理阶段，模型输入包括完整的语言指令 l、机器人状态 s 和图像观察 o。 FRS token 会关注历史的图像、状态和语言指令 token，以执行条件视觉前瞻，预测未来图像。随后，INV token 会关注所有输入 token 以及一个额外的 FRS token，以执行逆向动力学预测，输出相应的动作。

更多细节可参考附录部分。

模型（Model） 在整个训练过程中，预训练的视觉编码器和文本编码器保持冻结状态，总计包含 2.51 亿个不可训练参数。其余部分的模型组件则是可训练的。标准版本的 Seer 模型拥有 6500 万个可训练参数。此外，我们还扩展了参数规模，开发了一个称为 Seer-Large 的变体，包含 3.15 亿个可训练参数。除非特别说明，文中所提的 Seer 默认指标准版本（6500 万参数）。

4 仿真实验-SIMULATION EXPERIMENTS

我们在两个模拟基准LIBERO-LONG（Liu等人，2024）和CALVIN ABC-D（Mees等人，2022）上进行了实验。我们的目标是回答：1）我们的方法在具有挑战性的模拟基准测试中表现如何？2）随着下游微调数据量的变化，我们的管道是否保持一致的有效性？3）Seer中的训练目标是否有效？

4.1 BENCHMARKS, BASELINES AND METRICS

基准测试（Benchmarks） LIBERO-LONG（Liu 等人，2024）涵盖了多样的物体交互与多种灵活的运动技能。我们首先在 LIBERO-90 数据集上进行预训练，该数据集包含了 90 个短时任务的示范数据，并配有完整注释。随后，我们在 LIBERO-LONG 上进行微调与评估，该数据集包含的是长时任务。

CALVIN ABC-D（Mees 等人，2022）是一个关注语言条件视觉机器人操作的基准测试。它包含了分布在四个不同环境（Env A、B、C 和 D）中的 34 个任务，每个环境在物体和场景外观上各不相同。预训练阶段，我们使用官方提供的机器人探索数据（未包含语言指令），而带有完整注释的数据则用于微调。

对比基线方法（Baselines） 在 LIBERO-LONG 上，我们实现了以下几种对比方法：

MTACT：一个未经过预训练的基础多任务策略；
MVP（Xiao 等人，2022）：基于图像的通用预训练策略；
MPI（Zeng 等人，2024）：基于视频的预训练策略；
OpenVLA（Kim 等人，2024）：基于机器人数据的预训练策略。

在 CALVIN ABC-D 上，我们选取了在以往报告中表现最优的几种对比方法：

Roboflamingo（Li 等人，2023）：一种基于视觉语言模型（Alayrac 等人，2022）的策略；
Susie（Black 等人，2023）和 CLOVER（Bu 等人，2024）：代表了典型两阶段 PIDM 方法；
GR-1（Wu 等人，2024）：结合生成式视频预训练以增强操作能力；
3D Diffusor Actor（Ke 等人，2024）：专注于捕捉 3D 表示以提升操作效果。

评估指标（Metrics） 在 LIBERO-LONG 中，每种方法针对每个任务进行 20 次起始状态不同的 rollout。我们报告每个任务的成功率以及所有任务的平均成功率。

在 CALVIN ABC-D 中，机器人需执行 1000 个任务序列，每个序列包含连续的 5 个任务。我们报告平均成功率与平均完成序列长度。

4.2 仿真结果-SIMULATION MAIN RESULTS

表1：LIBERO-LONG结果。对于每项任务，我们展示了前3个检查点在20次部署中的平均性能。“平均成功率”指标衡量的是十项任务的平均成功率。Seer的表现优于基线，平均成功率更高，在大多数任务上都有更好的结果。最好的结果以粗体显示。

表2:CALVIN ABC-D结果。我们展示了每个任务在1000次部署中计算出的前3个checkpoint的平均成功率，以及连续完成5条指令的平均完成任务数（平均长度）。Seer相较于基线表现出持续且显著的优势。其中Seer-Large超越了sota。

4.3 DATA EFFICIENCY

图3：数据效率和可扩展性。左侧的两幅图描绘了Seer使用不同比例的下游数据在LIBERO和CALVIN上的表现。右图显示了不同参数量的Seer在CALVIN上的表现。

收集机器人数据既费时又费力，因此数据效率对机器人学习至关重要。我们在两个基准上评估我们的方法：LIBERO-LONG和CALVIN ABC-D，使用10%、20%、40%、70%和100%的可用数据来微调预先训练的策略或从头开始训练策略。图3所示的结果表明，我们的方法在不同数据大小的情况下始终提高了策略性能。值得注意的是，在只有10%训练数据的数据稀缺条件下，与从头开始训练相比，预训练策略在LIBERO-LONG上的成功率相对提高了187%，在CALVIN ABC-D上的平均任务长度相对提高了150%。此外，我们的方法只需要LIBERO-LONG和CALVIN ABC-D分别有70%的数据就可以超过最先进的基线。这些结果突显了Seer在微调数据有限的情况下的潜力。

4.4 SCALABILITY

4.5 消融实验-ABLATION STUDIES

我们研究了条件视觉前瞻目标Lfore和逆向动力学预测目标Linv在CALVIN ABC-D数据集预训练和微调阶段的贡献。由于微调阶段的目标函数与下游任务性能关联最为紧密，因此我们优先对微调目标进行消融实验，再考察预训练目标的影响。

微调目标方面：我们探究了Lfore和Linv在微调阶段的重要性。如表3(a)所示，与直接进行行为克隆的基准方法（无Lfore/无Linv）相比，额外预测未来图像（使用Lfore/无Linv）能带来性能提升，这印证了未来图像预测的积极作用（Wu等，2024）。更重要的是，同时结合Lfore和Linv能进一步显著提升效果，表明利用视觉预期来引导动作预测的策略，比单一视觉目标（使用Lfore/无Linv）能更有效地挖掘机器人数据中丰富的视觉与时序信息。

预训练目标方面：在确定最优微调目标（Lfore+Linv）后，我们对预训练目标进行消融。表3(b)结果显示，仅预训练视觉预测模块（使用Lfore/无Linv）已能带来一定收益，这得益于从海量数据中学习到的视觉先验。而通过视觉前瞻与逆向动力学的联合预训练（使用Lfore/Linv）能实现更大提升，证明从大规模机器人数据中提炼的动作-视觉协同先验对增强下游任务性能具有关键作用。

5 真机试验-REAL-WORLD EXPERIMENTS

我们对Seer进行了六项现实任务的评估，其中四项侧重于泛化，两项侧重于高精度和丰富的接触。我们的目标是回答：1）Seer在现实世界的任务中有效吗？2）预训练是否能在强烈干扰下持续提高表现？

5.1 REAL-WORLD BENCHMARK

真实世界设置。我们使用配置为Eye on Hand和Eye on Base的两个RealSense D435i摄像头，对配备Robotiq-2f-85抓取器的Franka Research 3机器人进行了六项任务的评估。图4显示了四个以泛化为中心的任务，附录中的图A-3显示了两个高精度和接触丰富的任务。

数据集。对于预训练，我们选择DROID数据集，其中Franka机器人在不同场景中执行任务。在微调阶段，我们以15 Hz的频率捕获RGB图像、机器人状态和动作，每个任务收集100个演示。

基线和指标。我们以MVP（基于图像的预训练）、MPI（基于视频的预训练）和OpenVLA（基于机器人数据的预训练）为基准。每种方法在每项任务的15次试验中进行评估，对象的初始状态会有所不同。每种方法每次试验允许执行三次，并报告平均性能。鉴于任务的长期性和挑战性，我们定义了两个指标：成功率（SR）和得分（如（Kim等人，2024）所述）。分数在完成特定中间阶段时累积，而SR只有在成功完成整个任务后才记录为100%。详情见附录。

图4：四个以泛化为中心的任务的现实世界基准。左图：我们使用的是一台配备Robotiq-2f-85夹爪和两个RealSense D435i摄像头的Franka Research 3机器人。右图：我们设计了四个现实世界的操作任务：（1）翻转白色碗，（2）堆叠杯子，（3）擦拭板子，（4）拾取、放置、关闭。A.6.1中包含了这些任务的详细说明。

5.2 真机实验结果-REAL-WORLD MAIN RESULTS

表4：现实世界实验结果。我们以每项任务15（次）×3（重复试验）的方式评估所有方法。我们的方法在所有任务中都取得了比基线更好的性能。

如表4所示，我们的预训练策略在所有任务中都可能优于所有基线。具体来说，与从头开始训练的版本相比，我们的方法将平均成功率和累积分数从60.0%提高到78.4%，从32.8提高到39.5。与仅预训练视觉编码器的MVP和MPI相比，我们的结果强调了预训练整个策略的重要性，与仿真实验的结果一致。关于OpenVLA在现实世界中的性能，它在完全微调过程中具有明显更大的可调模型尺寸（此处为3B），并且仅依赖于眼在手外的相机。这可能会导致严重的过拟合和粗略的动作预测，特别是在物体较小（如堆叠杯子）或远离相机（如擦拭板子）的任务中。相比之下，我们的方法由于其适度的模型大小和全面的数据利用率，在处理这些任务方面表现更好。我们还对两项高精度、接触丰富的任务进行了评估，结果如表A-III所示。

5.3 ROBUSTNESS

图5：泛化评估。我们为每个任务设计了一个具有不同干扰的泛化测试。左上：在翻转碗中，我们把几个形状、大小、材料和颜色相同的碗放在原来的白色碗周围。右上：在Stack Cups中，我们删除了原始的黑色背景，保留了自然背景。左下：在擦拭板中，我们用各种新颖的小物体代替了巧克力球。右下：在“拾取、放置、关闭”中，我们引入了一个额外的光源。在所有测试中，我们的预训练方法带来了一致的提升。

6 CONCLUSION AND LIMITATIONS

在这项工作中，我们介绍了Seer，这是一种端到端的预测逆动力学模型，它将条件视觉预见与逆动力学预测相结合，用于操纵。Seer在两个模拟基准上取得了最先进的结果，并在大型DROID机器人数据集上进行预训练后，在真实世界的实验中显示出显著的改进和鲁棒性。其局限性主要表现在两个方面。首先，我们只评估了六个下游任务。更广泛的高精度和接触丰富的任务仍有待探索。其次，为了测试Seer的交叉实施能力，还需要对不同的机器人进行评估。

补充材料

A.1 实现细节-IMPLEMENTATION DETAILS

视觉模块

我们采用 MAE预训练的ViT-B模型（He等，2022）作为视觉编码器。每时间步从两个视角（手眼相机和基座相机）捕获图像，经视觉编码器处理后生成 196个局部图像块特征向量和一个全局表征的 [CLS]标记。若直接将全部197个标记输入Transformer主干网络，会因序列过长导致巨大计算开销，且许多图像细节对操作任务冗余。为此，我们引入 Perceiver Resampler（Alayrac等，2022）压缩图像表征并提取任务相关特征：该模块通过一组可学习潜在向量（维度为(num_latents, dim)，其中num_latents远小于图像标记数），利用感知器注意力机制将图像特征与[CLS]标记压缩为最终图像标记。

机器人状态编码

机器人状态包含机械臂状态和夹爪状态：

机械臂状态：末端执行器的位置和欧拉角旋转（6维向量）
夹爪状态：表示开闭的二进制值状态编码流程：

将夹爪状态转换为独热编码
独热编码和机械臂状态分别通过独立线性层
拼接结果后经最终线性层生成状态标记

语言指令编码

使用 CLIP ViT-B/32文本编码器（Radford等，2021）提取文本特征，并通过线性层投影生成语言标记。

读出标记

每时间步追加两类特殊标记：

[FRS]标记：提取双视角图像的表征（用于视觉前瞻）
[INV]标记（3个）：预测三步动作（确保时序动作一致性及对空闲动作的鲁棒性）

解码器设计

经Transformer主干处理后：

动作解码器（MLP结构）

动作潜在向量通过线性层+ReLU激活
经第二线性层+ReLU后分流至两个独立解码器：
1. 机械臂动作解码器：线性层输出6维向量，Tanh激活约束至[-1, 1]范围
2. 夹爪动作解码器：线性层输出1维向量，Sigmoid激活约束至[0, 1]（≥0.5为闭合，反之为开启）

图像解码器（ViT结构）

输入图像潜在向量与掩码标记
添加正弦-余弦位置编码
经多层Transformer编码块处理
线性层逐块预测像素值，生成未来状态图像

训练配置

参数量：标准版Seer共3.16亿参数，其中可训练参数6500万
硬件：使用8块RTX 4090 GPU
耗时：
- 预训练：CALVIN ABC-D需40小时，LIBERO-LONG需30小时
- 微调：CALVIN ABC-D需24小时，LIBERO-LONG需6小时

A.2 NETWORK ARCHITECTURE -网络框架

如图A-1所示，Seer系统由以下模块构成：图像编码器、感知重采样器、机器人状态编码器、语言编码器、Transformer主干网络、动作解码器和图像解码器。各模块详细说明如下：

图像编码器：基于MAE预训练的ViT-Base模型（He等，2022），具体参数见表A-II。
感知重采样器：用于高效压缩图像标记的模块，参数细节见表A-II。
机器人状态编码器：通过多层感知机（MLP）将机器人状态编码至潜在空间。
语言编码器：采用CLIP ViT-B/32文本编码器（Radford等，2021）。
Transformer主干网络：24层GPT-2风格的Transformer模块，隐藏层维度384，12个注意力头。输入包括图像标记、语言标记、机器人状态标记及特殊标记[INV]和[FRS]，详细配置见表A-II。
动作解码器：MLP结构，将潜在特征解码为7自由度动作向量。
图像解码器：基于ViT架构的Transformer配合线性层实现，参数见表A-II。

The Perceiver Resampler实现：

图5：感知重采样模块: 将视觉编码器输出的可变大小的时空视觉特征映射到固定数量的输出token（图中为五个），与输入图像分辨率或输入视频帧数无关。该transformer具有一组学习的潜在向量作为查询，键和值是时空视觉特征与学习的潜在矢量的连接。

这样设计的好处：

输入多样性：不同任务可能需不同视角或时序长度的视觉输入。
计算效率：固定长度输出避免为每个任务定制特征处理器。

超参数设置如表A-I

A.3 基线实现方法

在仿真基准测试中，我们直接引用了Roboflamingo、Susie、GR-1和3D Diffusor Actor等模型原论文报告的分数。对于MTACT和OpenVLA，我们使用官方代码复现了结果。针对MVP和MPI，我们将策略网络中的视觉编码器替换为其预训练版本。得益于策略网络的强健设计，MVP和MPI虽仅达到未预训练版本的性能水平，但仍展现出竞争力。

A.4 LIBERO-LONG实验细节

LIBERO（Liu等，2024）是机器人终身学习的新基准，包含四个任务集：

LIBERO-SPATIAL：空间关系迁移
LIBERO-OBJECT：物体操作迁移
LIBERO-GOAL：目标任务迁移
LIBERO-100：100个混合知识迁移任务（含复杂物体交互与多模态运动技能）

其中LIBERO-100进一步划分为：

LIBERO-90：90个短视程任务（用于预训练）
LIBERO-LONG：10个长视程任务（用于微调与评估）

策略配置：

视觉输入：固定相机和夹爪相机的224×224像素图像
状态编码：末端执行器的6D位姿（位置+朝向）和夹爪开合宽度
动作空间：7维向量（6维机械臂动作+1维夹爪状态）
- 机械臂动作控制指间坐标系的6D位姿

A.5 CALVIN ABC-D实验细节

CALVIN（Mees等，2022）是面向长视程语言条件任务的仿真基准，其目标是开发仅依赖本体传感器和自然语言指令完成复杂操作的智能体。该基准特点包括：

任务复杂性：长动作序列与精细语言指令
传感器配置灵活性：支持多模态传感器组合
评估方式：零样本测试新指令与新环境

环境配置：

包含四个结构相似的环境（Env A/B/C/D），均配置：

机器人：Franka Emika Panda机械臂（平行夹爪）
交互场景：带滑门和可开关抽屉的工作台
工作台上布置有积木、按钮等多种物体。为更有效评估策略的泛化能力，

各环境采用差异化设计：

纹理差异：每个环境拥有独特材质贴图
物体布局：滑门、抽屉、灯光按钮等物体的位置均不相同

数据配置：

观测输入：
- 固定位置相机与夹爪相机的224×224像素图像
- 机器人状态信息（末端执行器位置、朝向、夹爪开合状态）
动作空间：7维向量
- 6维：末端执行器位移量（位置+朝向）
- 1维：夹爪开闭状态控制
数据集特性：
- 包含探索性行为与次优策略
- 总数据量：约240万交互步数，4000万短视程窗口

训练/评估划分：

预训练数据：Env A/B/C的无语言标注数据
下游任务数据：带语言标注的数据
评估环境：Env D（专用于策略性能测试）

任务说明

任务名称	任务描述	物体布局	评分规则	满分	核心挑战
翻转白碗	①拾取倒扣白碗 ②放置于杯垫	- 白碗：40×40cm区域 - 杯垫：15×15cm区域	- 抓取成功：+1 - 放置成功：+1	2	干扰碗泛化测试
堆叠杯子	1.中号杯盖小号杯 2.大号杯盖中号杯	- 三杯子：40×40cm区域	- 每次抓取：+1（共2次） - 每次放置：+1（共2次）	4	光滑表面精准堆叠
擦拭板子	1.收集3-7颗巧克力豆 2.用刷子扫入簸箕	- 板子：30×40cm固定 - 刷子：5×5cm区域	- 抓取刷子：+1 - 部分清扫：+1 - 完全清扫：+1	3	多物体协同操作
取放关抽屉	①抓胡萝卜→②放入抽屉→③关闭	- 胡萝卜：20×20cm区域 - 抽屉：固定位置	- 抓取：+1 - 放置：+1 - 关闭：+1	3	连续动作规划与铰接物体操作
高精度任务
按下按钮	1.接近烤面包机 2.闭合夹爪 3.垂直按压按钮（>3/4行程）	- 烤面包机：30×30cm区域	- 无碰撞按压：+1 - 深度达标：+1	2
插入任务	1.抓取相机模型 2.精准插入凹槽	- 相机模型：20×20cm区域 - 凹槽尺寸：2.8×9.5cm	- 抓取：+1 - 无碰撞插入：+1	2

实验结果

如表A-III所示：

DROID数据集预训练相比从头训练（scratch）和现有最优基线模型带来显著性能提升
关键发现：两项任务均需高精度动作预测与无碰撞交互，结果表明我们的模型在高精度、高接触频率任务中具有突出潜力

A.6.3 真机试验细节-REAL-WORLD IMPLEMENTATION DETAILS

真实世界训练配置

在实际机器人训练中，我们设置以下参数：序列长度：7，视觉前瞻步数：3，动作预测步数：3。

模型架构优化

视觉编码器：
1. 采用MAE预训练的ViT-B模型
2. 使用bfloat16精度加速推理（经测试不影响操作任务精度）
数据规模：
1. 预训练数据集（DROID）：包含7.6万条成功轨迹
2. 下游微调数据：400条演示样本（完整超参数配置见表A-I）

训练策略

检查点选择：
- 使用第9个预训练检查点进行微调
- 基于第17个微调检查点评估最终性能

基线模型对比实验

MVP/MPI基线：
1. 将网络中的MAE视觉编码器分别替换为MVP预训练和MPI预训练版本
2. 在下游任务上微调后评估性能
OpenVLA大模型：
1. 采用其公开的7B参数检查点（基于OXE数据集预训练）
2. 微调配置与其官方代码库中Bridge数据集设置保持一致
3. 使用8块A100 GPU进行超过24小时的微调
4. 选择验证损失最低的检查点进行评估

A.6.4 ACROSS EMBODIMENTS EXPERIMENTS

如表A-IV所示，在OXE数据集上进行预训练仅对多数任务带来边际性提升。更值得注意的是，在某些高精度任务中，OXE预训练版本甚至会产生负面影响。我们认为通用操作任务的微弱提升得益于OXE数据集中物体、任务、场景及语言指令的多样性。而对于部分高精度任务出现的性能衰减，我们推测存在两个原因：其一，高精度任务高度依赖手眼相机（腕部视角）图像，这类镜头能为策略提供关键的局部细节信息，但多数OXE子集仅包含相机位姿各异的第三人称视角图像，腕部视角数据严重缺失；其二，我们的实验设置中存在跨机器人本体与跨动作控制器的差异——高精度任务需要高度集中且精确的动作分布，而OXE预训练可能因上述物理差异提供偏离实际的动作先验。

全文 -完-