论文阅读笔记——ROBOGROUND: Robotic Manipulation with Grounded Vision-Language Priors

RoboGround 论文
一类中间表征是语言指令,但对于空间位置描述过于模糊(“把杯子放桌上”但不知道放桌上哪里);另一类是目标图像或点流,但是开销大;由此 GeoDEX 提出一种兼具二者的掩码。

相比于 GR-1,通过分割算法,提出了局部 Mask,以及相应的坐标,增强了空间理解。

现有的语言条件下的仿真数据集常常存在物体和环境多样性不足,或者缺乏广泛的指令和复杂场景,基于 RoboCasa 引入一种自动化数据生成流程。
在这里插入图片描述

数据集

在 Objaverse 中借助 GPT-4o,筛选并识别出1)适合桌面使用的物品;2)与厨房相关的物品;3)排除多件物品组合;再经过人工审核,挑选出 1017 个高质量桌面操作物体。
原有的语言条件数据集:指令格式固定——模型只需要学习指令到任务的映射,无需深入理解指令,导致泛化能力差。

  • Appearance——从 4 个视角(正面、背面、左侧和右侧)渲染每个物体,由此组合成一张综合图像,再用 GPT-4 提取特征(颜色、材质、形状等),随机选取一个作为物体特征并过滤掉场景中包含该特征的其他物体。然后通过 CLIP 选择干扰物。(选取一组代表物,通过他们学习别的特征混合的物体)
  • Spatial——指定物体以及位置坐标的指令。
  • Commonsense——使用 GPT-4 为每个任务提供机器人的视角图像(左侧、右侧和手部视角),以及目标物体及其预期位置的详细信息。(传统:把红色的杯子从桌子上拿起来;常识:把杯子从桌子上拿起来)

在这里插入图片描述

定位视觉语言模型

  • y t = L ( f v ( C L I P ( x v ) ) , x t ) y_t=L(f_v(CLIP(x_v)),x_t) yt=L(fv(CLIP(xv)),xt) 模型通过一个提示来感知图像,提示的格式为:“The <IMAGE> provides an overview of the picture”。其中 <IMAGE> 标记被替换为投影后的视觉特征,表示为256个标记的序列。
  • 在定位头中,采用预训练的 SAM 编码器,解码器类似 SAM 解码器架构。在 LLM 的词汇表中引入 <SEG> 提取与定位相关特征。由此生成二进制掩码: M = D ( f s ( F s e g , E ( x v ) ) ) M=D(f_s(F_{seg},E(x_v))) M=D(fs(F
### MOKA 开放世界机器人操作概述 MOKA 是一种创新性的框架,旨在使机器人能够在开放环境中执行复杂的操纵任务。该框架利用基于标记的视觉提示技术来指导机器人的动作[^1]。 #### 基于标记的视觉提示机制 为了实现在未知环境下的有效交互,MOKA 使用特定设计的视觉标记作为引导信号。这些标记被放置在目标物体周围或表面上,提供给机器人清晰可见的位置指示和操作指令。当摄像头捕捉到带有编码信息的图像时,算法会解析其中蕴含的数据并转换成具体的运动命令。这种方法不仅提高了识别精度,而且简化了训练模型所需的数据集构建过程。 ```python def parse_visual_prompt(image): """ 解析来自图像中的视觉标记,并返回相应的操作指令。 参数: image (numpy.ndarray): 输入RGB图像 返回: dict: 包含位置和其他必要参数的操作指令字典 """ markers = detect_markers_in_image(image) instructions = {} for marker_id, position in markers.items(): instruction = decode_marker(marker_id) instructions.update({ 'position': position, **instruction }) return instructions ``` #### 实现细节与优势 - **鲁棒性**: 即便是在光照变化较大或者存在遮挡的情况下,精心设计的标记依然能够保持较高的检测成功率; - **灵活性**: 可以轻松调整不同场景下的需求,只需改变所使用的标记样式即可适应新的应用场合; - **效率高**: 减少了对大规模标注数据的需求,在一定程度上降低了开发成本和技术门槛; 通过上述方式,MOKA 成功实现了让机器人理解复杂多变的真实世界的潜力,为自动化领域带来了全新的可能性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值