可变形物体操控(DOM)一直是机器人领域的技术难题。研究人员不断探索如何操控各种可变形物体,包括线性物体、织物、纸张以及弹性体和弹塑性材料。然而,塑料袋由于其形变建模与控制的复杂性,尚未在机器人学文献中得到充分研究。赋予机器人操控塑料袋的能力,将为仓库、垃圾场和超市等场所带来多样化的工业与民用应用场景。在实际场景中,塑料袋打结是检验机器人灵巧度的代表性任务之一。
论文详情:https://openreview.net/pdf?id=KDuBFXyRuE-
本研究通过双臂机械臂结合图像输入,探索如何对随机从空中掉落的塑料袋进行打结操作。塑料袋复杂的初始形态和精密的物理特性给可靠的感知与规划带来了挑战。直接从随机初始状态进行打结操作难度较大。为此,我们提出迭代交互建模(IIM)技术:首先通过模仿学习将塑料袋调整至直立姿态,建立高置信度的关键点骨架模型;随后运用一组习得的运动原语完成打结动作。该方法借助空间动作图实现迭代式抓取-放置操作,并采用图卷积网络在IIM过程中实时评估调整后的姿态。在实验中,我们对4种不同材质、尺寸和厚度的塑料袋打结成功率达85.0%,其中1种未进行演示。这种技术不仅提升了机器人在处理柔性物体时的灵活性和精确性,还为未来在物流、医疗等领域的应用提供了新的可能性。
如何通过双臂机器人结合原始图像输入,实现对空中随机掉落塑料袋的精准打结。图1(a)展示了一个随机掉落的塑料袋。要从这种不规则的初始构型中打结,需要从混乱中找到并取出把手,同时进行精细的协调。
图1:实验设置
(a)随机掉落的塑料袋。(b)Intel Realsense D435i深度传感器测得的深度数据存在偏差。(c)初始状态下关键点检测不稳定。(d)(e)我们提出智能交互方法(IIM),首先通过迭代交互使塑料袋形成直立姿态,然后利用三角测量构建高置信度的三维关键点骨架结构。(f)基于学习到的运动基元进行结绳操作。
用双臂打结与在绳索上研究得很好的打结任务相比,由于塑料袋的初始复杂配置及材料和动态特性,这项任务对感知和规划提出了新的挑战。如图1(b)所示,塑料袋的半透明非朗伯表面特性导致深度感知存在偏差,因此基于3D视觉的模型(如点云或体)并不适用于本任务。
同时,由于初始构型复杂导致严重自遮挡和局部观测问题(图1(c)),二维视觉模型(如2D关键点)的可靠性也大打折扣。在规划应用中,塑料袋的物理参数极难估算,且据我们所知目前尚无可用仿真器,因此构建塑料袋的数学物理模型存在困难。此外,由于塑料袋运动并非准静态,学习用于规划的动态模型也难以实现。尽管某些基于图像的模仿学习或强化学习方法无需视觉表征或物理模型即可直接学习视觉策略,但它们所学策略要么仅采用如抓取放置这类小范围动作空间——这不足以完成打结任务,要么无法应对随机掉落塑料袋中出现的复杂初始构型。因此,从初始构型直接打结塑料袋对感知和规划都极具挑战性。幸运的是,塑料袋的弹塑性特性为我们提供了另一种实现打结任务的方法。这种弹性材料可在平衡状态下被塑形为预设目标形态且保持不变,这一过程被称为变形控制。先前研究已通过与海绵、塑泥或黏土等弹性材料在塑形过程中的互动,探索了如何学习其动力学模型或估算物理参数。
然而对于我们的任务而言,这种交互式塑形过程在降低感知与规划难度方面更具价值:将塑料袋从随机掉落状态塑形为直立姿态(图1(d))的过程本质上是拉直操作,而局部观测与自遮挡问题在此过程中可逐步缓解。这使我们能够构建更可靠的视觉模型(如关键点骨架结构,图1(e)),并基于该模型实现以直立姿态完成的结绳任务。借助最新技术,仅需通过迭代式的抓取-放置动作即可完成调整过程,因此我们可以通过开发视觉学习策略来实现塑形目标,进而获得可靠感知模型以执行下游结绳任务。
在本工作中,我们提出了一种迭代交互建模(IIM),用于随机从空中掉落的塑料袋打结,仅需图像输入。我们训练机器人首先通过示范将塑料袋塑形为直立姿势,随后利用多视角立体图像建立关键点骨架模型,并将其与一组学习到的自适应运动原语进行绑定。具体而言,机器人会迭代执行不同类型的俯视式拾放动作来展开塑料袋,同时任务进度模块会评估当前姿态是否适合打结。我们采用空间动作图[17,18]来实现拾放动作,并训练图卷积网络作为任务进度模块,通过相同示范数据评估调整过程中的关键点骨架。为实现塑料袋的关键点检测,我们提供了首个包含43,200张图像的二维塑料袋关键点数据集PBPose,用于训练现成的二维关键点检测模型RLE [22]。经过IIM处理后,我们通过几何约束规划将塑料袋悬空,并利用CNN训练的动作参数与一组运动原语进行捆绑。
实验结果显示,我们的方法达到了85%的准确率。使用配备标准Robotiq 2F-85夹爪的双Kinova Gen3机械臂,随机从空中掉落四个不同塑料袋(其中一个未进行演示),成功率为0%,每个塑料袋仅提供100次演示(1.5小时)。总结如下:
• 我们提出了一种迭代交互建模(IIM)来处理复杂的弹塑性物体操作,通过迭代地塑造物体,以促进更可靠的感知和规划。
• 我们利用空间动作图、图卷积网络和RLE模型对塑料袋进行IIM,并训练运动原语来完成打结任务。
• 我们利用提供的PBPose数据集和少量演示,构建了第一个双臂机器人系统,用于随机从空中投掷塑料袋并将其打结。
方法
本文旨在实现双臂机械臂系统从随机初始状态完成塑料袋打结操作。我们采用关键点骨架作为塑料袋的视觉表征,通过任务进度模块辅助训练机器人迭代调整塑料袋至直立姿态,构建完整且高置信度的关键点模型,最终运用学习到的动作基元完成打结。具体研究内容包括:3.1 节阐述问题设定,3.2 节介绍关键点检测模型,3.3 节说明迭代交互建模流程,3.4 节演示打结操作过程。
演示:
整个实验装置如图所示。我们在实验中使用了两个相同的Kinova Gen3(6DoF)机械臂和Robotiq 2F-85夹爪。我们在机械臂末端分别安装了两台英特尔Realsense D435i摄像头Cleft和Cright,从末端执行器视角获取图像输入Ileft和Iright。双臂基座间距为51.2厘米。Cright摄像头采用俯视角度对准XY平面,通过塑料袋居中的位置获取75.4厘米×56.6厘米范围内的Iright图像。另一侧则通过调整Cleft摄像头的拍摄角度,使其对准塑料袋进行立体成像,从而获得Ileft图像。
我们通过专家示范,反复抓取和放置塑料袋,逐步调整其初始状态,并利用任务进度模块自动评估姿态。需要说明的是,整个调整过程无需保持完全静止,这意味着塑料袋在稳定站立前可能会出现部分塌陷。
实验结果
我们评估了我们的方法在四种塑料袋(三种带演示,一种新型灰色塑料袋无演示)上的打结成功率,以展示方法的泛化能力。评估指标包括:a) 调整成功率(ASR):塑料袋从随机掉落的初始状态调整为直立姿势,便于有效插入和提起;b) 绑扎成功率(KSR):塑料袋从空中随机初始位置成功打结;c) 完整任务成功率(FSR):塑料袋从随机掉落的初始状态成功完成打结。对于ASR和FSR,若10次抓取步骤内未成功则判定为失败。我们通过消融实验展示了不同模块的有效性:直接插入不调整(DI):在塑料袋从空中掉落时,直接找到把手并提起,用于展示IIM的必要性。随机抓取(RP):机器人随机选取塑料袋的一个点并生成抓取点,用于显示空间动作图φ的有效性。基于视觉的关键点骨架评估(VBE):通过图像分析评估塑料袋调整后姿态,无需GCN处理关键点骨架,用于验证任务进度模块G的有效性。本基准测试中,分别采用侧视图图像(VBE-S)和俯视图图像(VBE-T)进行阶段分类。硬编码打结法(HKT):采用相同原始动作元素打结伊恩结,但每个动作目标硬编码,用于展示通过CNN学习到的动作原始元素的有效性。
成果和突破
通过迭代交互式建模,用于将塑料袋随机从空中掉落,并使用双臂机器人。我们在塑料袋实验中验证了空间动作图、关键点检测模型等视觉学习方法的有效性。交互式感知模型(IIM)作为交互式感知[52]的通用框架,能够通过与物体互动构建显式表征模型,适用于复杂弹塑性物体建模。本方法中的模块可根据不同物体类型灵活替换:例如表征模型(本文采用关键点骨架)可替换为密集描述符[8,27,28]或基于粒子的图结构[13,14,36],而补全算法(本文采用模仿学习)则可替换为基于图结构的补全算法。
本研究存在以下局限性:1)关键点检测器依赖于自建数据集PBPose,图像信息模型(IIM)基于人类示范数据,这限制了方法在其他物体和场景中的快速扩展。2)研究假设塑料袋在调整后能保持静止,对于非常柔软或坚硬的塑料袋,或无法支撑静止的填充物,方法可能无效。3)无法处理极其困难的初始配置,例如手柄被按在塑料袋下面。未来工作可能尝试使用更多动作来解决这些问题。