零样本 87.5% 成功率！天津大学开源30 亿参数模型Embodied-R1，带来“指点式”机器人

最新推荐文章于 2025-12-22 22:29:27 发布

原创最新推荐文章于 2025-12-22 22:29:27 发布 · 594 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#机器人

部署运行你感兴趣的模型镜像

导读

在机器人研究中，如何让“看到的”顺利转化为“做到的”，一直是一个难题。虽然近年来的视觉语言模型（VLM）和视觉语言动作模型（VLA）大幅提升了机器人理解场景与指令的能力，但当机器人真正要操作物体时，性能常常大打折扣，这就是研究者口中的 seeing-to-doing gap。

来自天津大学的团队提出了 Embodied-R1，一个专为机器人推理与操作设计的 30 亿参数模型。它引入了一个非常直观的中间表示——“指点”（pointing），并围绕这一表示定义了四种关键能力：指代表达理解（REG）、空间区域指点（RRG）、功能部位指点（OFG）、视觉轨迹生成（VTG）。通过这种方式，模型能够把复杂的视觉语言理解转化为通用、可迁移的操作指令。

研究团队不仅构建了规模达 20 万样本的 Embodied-Points-200K 数据集，还设计了强化学习驱动的两阶段训练策略。最终，Embodied-R1 在 11 项空间推理与指点任务中取得了领先成绩，并在模拟和真实环境的机器人任务中展现出强大的零样本泛化能力：在 SIMPLEREnv 中成功率达到 56.2%，在 8 个真实任务中更是高达 87.5%。这一成果意味着，借助“指点”这种跨形态、跨任务的统一表达，机器人有望真正跨越从感知到行动的鸿沟。

论文标题：Embodied-R1: Reinforced Embodied Reasoningfor General Robotic Manipulation

论文作者：Yifu Yuan, Haiqin Cui, Yaoting Huang, Yibin Chen, Fei Ni, Zibin Dong, Pengyi Li Yan Zheng, Jianye Hao

项目主页：https://embodied-r1.github.io/

代码链接：https://github.com/pickxiguapi/Embodied-R1

近年来，视觉语言模型的崛起让机器人看懂世界的能力大幅提升，也带动了一批视觉语言动作模型的出现。这类模型不仅能理解画面和指令，还能输出动作，看似给机器人操作插上了“智慧的翅膀”。然而，真正落到执行时，问题就暴露出来了：在新环境里，它们的表现往往大幅下滑。研究者把这一现象称为 “从看见到做到的鸿沟”——机器人虽然能理解场景，却难以将理解转化为可靠的操作。

造成这一鸿沟的原因主要有两个：一是数据不足。现有的具身数据规模有限，很难支撑模型把语言、视觉和物理动作三者真正融合起来；二是机器人之间的差异。不同形态的机器人动作方式差别很大，导致知识迁移困难。

过去，学界尝试过几种路线。端到端方法直接把输入和动作硬绑在一起，但在现实世界里，这样的匹配存在天然缺陷，往往导致模型遗忘旧知识或在任务间产生冲突。模块化方法则把操作拆成若干步骤，用一系列专门模型来完成物体检测、抓取等任务，但链条过长容易出错，推理速度也慢，还缺少全局的空间理解。另一类是可供性方法，通过预测中间的视觉辅助信号来指导机器人执行，但这些辅助往往不够全面，很难覆盖复杂任务的所有需求。

在这样的背景下，天津大学团队提出了一个新的切入点：“指点”。所谓指点，就是把复杂的操作指令，统一转化为图像上的一个或一串点。这种方式直观而灵活：它既能标出“要操作的物体”，也能指示“该怎么抓”“放在哪里”，甚至还能通过轨迹点序列来表达“操作的过程”。

基于这一思路，团队研发了 Embodied-R1。这个模型在生成答案前，会先给出完整的推理过程，再通过“指点”输出操作目标。凭借 30 亿参数的轻量规模，Embodied-R1 已经在多个空间理解和操作基准上取得了领先成绩，并且能直接把“指点”结果交给机器人，完成实际操作。相比直接预测动作，这种中间表示不仅保留了预训练模型强大的视觉泛化能力，也让模型能够在全新场景下实现真正的零样本控制。实验表明，Embodied-R1 在模拟环境中的成功率超过五成，在 8 个真实机器人任务中更是达到 87.5%，远超现有方法。同时，它在面对光照、背景等变化时依然保持了稳健表现。

为了实现这一突破，研究团队设计了两阶段强化微调（RFT）策略：第一阶段专注于空间推理，打好基础；第二阶段则利用他们自建的 Embodied-Points-200K 大规模数据集，系统训练模型的“指点”能力。值得一提的是，指点问题往往存在“多解”现象，比如“抽屉右侧”可能有很多合格点。有监督微调容易让模型死记硬背，而 RFT 则能为所有正确答案提供奖励，促使模型形成真正的理解。

最终，Embodied-R1 展现出强大的零样本泛化能力，也让我们看到了一个清晰的方向：用“指点”作为桥梁，打通从感知到决策，再到行动的全过程。

图1｜Embodied-R1 接收视觉和文本指令，先进行显式推理，然后生成一条视觉轨迹，作为通用的操作指令。另一侧展示了我们全面的评估结果，包括空间推理、具身指点基准测试，以及真实机器人任务

模型架构与核心能力

Embodied-R1 的整体结构延续了大模型的经典框架，由视觉编码器、投影层和语言模型三部分组成。输入是一张图像和一条文本指令，模型最终会生成推理过程和答案。与传统视觉语言模型不同，Embodied-R1 专为机器人操作设计，重点在于增强空间推理和“指点”能力。

所谓“指点”，就是在图像上生成坐标点。这些点不是简单的像素，而是承载了任务语义。研究团队将其归纳为四种核心能力：

● 指代表达理解（REG）：通过语言描述锁定目标物体，在物体区域内输出一个点。比如“把杯子拿起来”，模型会在图像中精确指向那个杯子。

● 空间区域指点（RRG）：理解相对空间关系，输出合适的空白区域坐标，例如“放在碗和杯子之间”。

● 功能部位指点（OFG）：识别物体的功能性部位，比如刀柄或杯把，生成落在这些区域的点，指导机器人抓取。

● 视觉轨迹生成（VTG）：输出一系列有序点，形成一条轨迹，表达操作过程。例如“把勺子搅拌到碗的右侧”，模型会生成一条曲线轨迹。

这种以点为核心的表示方式，有两个好处：一是摆脱了具体机器人形态的限制，点本身对任何机器人都是通用的；二是既能用互联网大规模数据训练，也能与真实机器人数据结合，从而在新任务和新场景中保持泛化能力。

图2｜四项Pointing任务图解

数据集与训练流程

为了培养这些能力，团队设计了一个三类数据组合：

● 空间推理数据：用来建立模型的空间感知基础，让它能理解“在……旁边”“在……上面”这类关系。

● 通用推理数据：避免在专门训练时遗忘已有知识，保证模型保留通用的推理能力。

● 具身指点数据：核心部分，涵盖了四大指点任务。

其中最重要的是团队自建的Embodied-Points-200K数据集，包含约 20 万条样本，覆盖物体定位、区域关系、功能部位和轨迹生成等场景。为了应对“多解”问题（比如“抽屉右侧”有多个正确点），他们没有采用传统的“问答式”数据，而是设计了“问题-验证”对，通过强化学习来给所有合理答案正向奖励。

具体来说：

● 在REG数据中，模型必须在物体分割区域内输出一个点，精确性远超边界框。

● 在RRG数据中，研究者通过大规模仿真与过滤，生成了数万条“物体相对摆放”的样本，让模型学会根据关系词指向正确位置。

● 在OFG数据中，提供了数万条功能性抓取点的标注，例如“刀的手柄应该被握住”。

● 在VTG数据中，利用关键点跟踪技术提取物体的运动轨迹，再将其投射到图像中，形成轨迹监督信号。

训练采用两阶段策略：

● 阶段一：集中强化空间推理能力，打好基础。

● 阶段二：在多任务混合数据上训练具身指点能力

图3｜训练数据概览：在第一阶段，重点提升模型的空间推理能力，同时加入少量通用推理数据。第二阶段则训练模型的具身指点能力，涵盖四个不同的子能力

多任务奖励机制

强化学习中的奖励设计至关重要。为了让 Embodied-R1 在多任务环境中学得更稳健，团队设计了多维度的奖励函数：

● 格式奖励：确保输出遵循统一格式，例如 <point> 标签中必须包含标准坐标。

● 准确率奖励：判断答案是否与标准一致。

● 掩膜奖励：预测点是否落在正确区域。

● 距离奖励：预测点与目标区域中心的距离越近，奖励越高。

● 轨迹奖励：根据预测轨迹和真实轨迹的相似度来打分。

● 环境奖励：在模拟器中直接执行预测，如果任务完成就加分。

小编觉得，这种奖励组合就像是一套评分体系，每个任务都有不同的“考核标准”，通过权重分配来平衡训练过程。例如在“区域指点”任务中，模型必须同时满足格式、区域正确性和距离接近度，才能获得高分。

任务执行方案

最后，Embodied-R1 需要把“指点”结果转化为真实机器人的动作。研究者提出了两条分支：

● 可供性点分支：通过 REG、RRG 和 OFG 得到关键抓取点或放置点，再结合运动规划器生成无碰撞路径，指导机械臂完成操作。

● 轨迹分支：利用 VTG 生成的轨迹点，把二维点映射到三维坐标，插值生成连续轨迹，直接让机器人跟随执行。

这意味着 Embodied-R1 不仅能回答“抓哪里”“放哪里”，还能直接给出“怎么做”的全过程。

为了验证 Embodied-R1 在机器人操作中的泛化能力，研究团队从“看”（空间推理与指点能力）和“做”（真实操作任务）两个维度进行了全面评估。实验覆盖了11 个空间推理基准、4 个仿真操作任务（SIMPLEREnv）以及 8 个真实机器人任务（xArm 平台）

空间推理能力

研究者首先在 5 个常用的空间推理基准上测试 Embodied-R1。结果显示：

● Embodied-R1 在所有开源模型中表现最佳，平均排名 2.1；

● 加入常识数据后，性能进一步提升；

● 相比单纯的监督微调（SFT）模型，采用强化微调（RFT）的 Embodied-R1 明显更强。

小编认为，这说明 Embodied-R1 不仅具备空间理解能力，还能通过合理的数据与奖励机制，激发更强的“探索式推理”能力

图4｜在推理数据集上的数值定量实验结果

Pointing任务能力

在四大能力（REG、RRG、OFG、VTG）上，Embodied-R1 同样展现出优势：

● 物体定位（REG）：在 RoboRefIt 数据集上大幅领先，尤其在相似物体混杂场景下准确率更高。

● 区域指点（RRG）：在 Where2Place 和 VABench-P 上表现优异，能准确理解“放在 A 和 B 之间”这类复杂空间关系。

● 功能部位指点（OFG）：在 Part-Afford 基准中取得最优结果，能正确识别刀柄、杯把等操作部位。

● 轨迹生成（VTG）：在 VABench-V 上获得最低误差，生成的轨迹序列更精确、更贴近实际操作需求。

此外，团队还测试了RGB-D 输入的版本，结果显示在三维空间定位中表现突出，说明多模态输入对机器人任务有额外帮助。

小编总结：在各种复杂场景下，Embodied-R1 不仅能“指对物”，还能“指得准、指得细”，甚至能画出可靠的“行动轨迹”

图5｜Embodied-R1在不同的pointing任务上表现可视化

仿真与真实机器人实验

在SIMPLEREnv 仿真环境中，Embodied-R1 的平均成功率达到 56.2%，超过了端到端、模块化和可供性 VLA 方法。更重要的是，它不需要额外微调，就能实现零样本部署。

在8个真实机器人任务（xArm 平台）中，Embodied-R1 的零样本成功率达到 87.5%，比现有方法提升超过 60%。在需要空间推理或抓取难度较大的任务中（如操作螺丝刀、摩卡壶），Embodied-R1 的表现尤为突出。

研究者还在任务中加入光照变化、背景干扰等挑战，结果显示Embodied-R1几乎不受影响，依然能稳定完成任务。这证明“指点”这种中间表示，确实增强了机器人策略的鲁棒性。

图6｜SIMPLEREnv仿真平台实验结果

图7｜真实机器人实验结果（展示前5个任务的可视化及综合的定量实验数据）

消融实验与进一步分析

团队还进行了几项关键分析：

● RFT vs SFT：结合推理链的强化学习（RL w/ Think）效果最好，直接输出答案的版本反而性能下降。这说明强化学习+推理机制的组合是提升泛化的关键。

● 混合训练的优势：在第二阶段同时训练多种指点任务，比单任务训练表现更佳。混合训练促进了语义空间和坐标空间的知识共享，从而增强了整体泛化能力。

小编认为，这些消融结果验证了 Embodied-R1 的核心理念：通过强化推理和多任务共享，模型才能真正学会“举一反三”，而不是死记硬背

图8｜Table8展示了RFT vs SFT的对比效果；Table 9 展示了消融混合训练模块的对比结果

从实验结果可以看到，Embodied-R1 并不仅仅是“性能更高一点”的模型，而是提出了一种全新的思路：用“指点”作为桥梁，把感知和行动真正连接起来。它既能理解复杂的空间关系，又能生成精确的抓取点和操作轨迹，在真实机器人任务中实现了前所未有的零样本成功率。小编认为，这种思路最大的意义在于，它不依赖具体的机器人形态，而是提供了一种通用的中间表示，让机器人从“看懂”到“做到”更进一步。未来，随着更多真实数据的补充，这种“点式推理”或许会成为机器人操作的标配能力。

您可能感兴趣的与本文相关的镜像