机器人对物体部分进行高效且零样本抓取的能力对于实际应用至关重要,并且随着视觉语言模型(VLMs)的最新进展而变得越来越普遍。为了弥补支持这种能力的表示中的二维到三维差距,现有方法依赖于通过可微渲染或基于点的投影方法的神经场(NeRFs)。然而,我们证明NeRFs由于其隐式性而不适用于场景变化,而基于点的方法在没有基于渲染的优化的情况下,对于部件定位不准确。
原文链接:https://arxiv.org/pdf/2409.02084
可关注PNP机器人
领域背景介绍
基于部件级理解的零样本高效操作对于下游机器人应用至关重要。设想一个被部署到新家庭的厨房机器人:在给定包含语言指令的食谱后,机器人通过把手拉开抽屉,通过手柄抓住工具,然后推回抽屉。为了执行这些任务,机器人必须动态理解部件级的抓取功能,以便与物体进行有效交互。最近的研究工作,通过将大规模预训练视觉模型(如CLIP)的参考特征嵌入到神经辐射场(Neural Radiance Fields, NeRFs)中来探索这种理解。然而,这些方法仅提供目标级别的场景静态理解,并且需要数分钟的时间来训练场景,这导致在场景发生任何变化后都需要进行昂贵的重新训练。这一局限性极大地阻碍了涉及物体位移或需要部件级理解的实际应用。另一方面,基于点的方法,通过对二维特征进行反投影,在特征构建方面效率很高,但在处理视觉遮挡时遇到困难,并且往往无法在没有进一步优化的情况下推断出细粒度的空间关系。
除了动态和部件级的场景理解外,实现精细操作还要求机器人对场景的几何和语义都有深入的理解。为了从粗略的二维视觉特征中获得这种能力,需要进一步的优化来弥合二维到三维的差距。基于NeRF的方法通过可微渲染促进了这种理解。然而,NeRFs从根本上来说是隐式表示,这使得它们难以编辑以适应场景变化,从而导致静态假设。为了解决动态问题,一些工作通常使用三维密集对应关系来预测抓取姿态,其中基于参考状态中的关键点识别出可靠的抓取点,然后将其应用于不同的视角或物体位置。然而,这些方法在跟踪物体状态随时间的变化和处理相同物体方面面临挑战。
为此,本文提出了GraspSplats。给定来自校准相机的带姿态的RGBD帧,GraspSplats通过3DGS(3D Gaussian Splatting,3DGS)构建了一个高保真表示,该表示作为显式高斯椭球体的集合。GraspSplats在不到30秒的时间内重建场景,并支持静态和刚性变换的高效部件级抓取,从而实现了如跟踪部件物体等现有方法无法实现的操作。GraspSplats从深度帧的粗略几何形状初始化高斯分布;同时,使用MobileSAM和MaskCLIP实时计算每个输入视图的参考特征。这些高斯分布通过可微光栅化进一步优化几何、纹理和语义。用户可以提供一个目标名称查询(例如,“杯子”)和部件查询(例如,“手柄”),以便GraspSplats能够高效地预测部件级可抓取性并生成抓取建议。GraspSplats直接使用显式高斯原语在毫秒级内生成抓取建议,为此扩展了现有的抓取生成器。此外,还进一步利用显式表示来在物体位移下保持高质量表示。使用点跟踪器,GraspSplats粗略地编辑场景以捕捉刚性变换,并通过部分场景重建进一步优化它

最低0.47元/天 解锁文章
775

被折叠的 条评论
为什么被折叠?



