论文阅读笔记——ROBOGROUND: Robotic Manipulation with Grounded Vision-Language Priors

原创

已于 2025-05-06 23:24:43 修改 · 1.4k 阅读

·

28

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#论文阅读 #笔记 #具身智能 #VLA #机器人

于 2025-05-06 23:24:24 首次发布

RoboGround 论文
一类中间表征是语言指令，但对于空间位置描述过于模糊（“把杯子放桌上”但不知道放桌上哪里）；另一类是目标图像或点流，但是开销大；由此 GeoDEX 提出一种兼具二者的掩码。

相比于 GR-1，通过分割算法，提出了局部 Mask，以及相应的坐标，增强了空间理解。

现有的语言条件下的仿真数据集常常存在物体和环境多样性不足，或者缺乏广泛的指令和复杂场景，基于 RoboCasa 引入一种自动化数据生成流程。
在这里插入图片描述

数据集

在 Objaverse 中借助 GPT-4o，筛选并识别出1）适合桌面使用的物品；2）与厨房相关的物品；3）排除多件物品组合；再经过人工审核，挑选出 1017 个高质量桌面操作物体。
原有的语言条件数据集：指令格式固定——模型只需要学习指令到任务的映射，无需深入理解指令，导致泛化能力差。

Appearance——从 4 个视角（正面、背面、左侧和右侧）渲染每个物体，由此组合成一张综合图像，再用 GPT-4 提取特征（颜色、材质、形状等），随机选取一个作为物体特征并过滤掉场景中包含该特征的其他物体。然后通过 CLIP 选择干扰物。（选取一组代表物，通过他们学习别的特征混合的物体）
Spatial——指定物体以及位置坐标的指令。
Commonsense——使用 GPT-4 为每个任务提供机器人的视角图像（左侧、右侧和手部视角），以及目标物体及其预期位置的详细信息。（传统：把红色的杯子从桌子上拿起来；常识：把杯子从桌子上拿起来）

在这里插入图片描述

定位视觉语言模型

$y_t=L(f_v(CLIP(x_v)),x_t)$ 模型通过一个提示来感知图像，提示的格式为：“The <IMAGE> provides an overview of the picture”。其中 <IMAGE> 标记被替换为投影后的视觉特征，表示为256个标记的序列。
在定位头中，采用预训练的 SAM 编码器，解码器类似 SAM 解码器架构。在 LLM 的词汇表中引入 <SEG> 提取与定位相关特征。由此生成二进制掩码： $M=D(f_s(F_{seg},E(x_v)))$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。