RoboBrain 论文
将任务规划、Affordance 感知(人手与物体接触的区域)、轨迹预测整合进 MLLM,实现指令->具体动作的端到端能力,结合 RoboOS 实现多机器人任务分配。
ShareRobot
- 细粒度:与 Open X-Embodiment 不同,ShareRobot 为每个数据点都包含于各个帧相关联的详细低级规划指令;
- 多维度:对任务规划、物体可操作性(affordances)以及末端执行器轨迹进行了标注;
- 采用 QA 问答形式标注。(个人理解:QA 标注相比于直接低级规划指令标注让模型更关注任务到动作的映射)
- 末端执行器
- 丰富多样性:ShareRobot 具有 102 个场景,涵盖 12 个实施例和 107 种原子任务。这种多样性使 MLLM 能够从不同的现实世界环境中学习,从而增强复杂、多步骤规划的稳健性。

RoboBrain
采用 SigLIP 作为视觉编码器,然后通过两层 MLP 将其投影到语义空间,采用 Qwen2.5-7B-Instruct 作为 LLM。
采用 bounding box 来表示 affordance region: O i = { A i 0 , A i 1 , … … , A i N } O_i=\{A_i^0,A_i^1,……,A_i^N\}

最低0.47元/天 解锁文章
1243






