10万+人手交互视频数据集发布!助力机器人手物交互

报告导读

近期,香港中文大学(深圳)的研究团队发布了一个名为 TASTE-Rob 的大规模数据集,旨在推动机器人手 - 物交互视频生成与模仿学习的发展。这一成果的发布,不仅为机器人领域的研究者提供了宝贵的资源,也为机器人在复杂场景下的操作能力提升带来了新的希望。资料获取方法:右下角“点赞”和“♡”。关注公众号,回复“数据集”,即可获得论文「TASTE Rob Advancing Video Generation of Task-Oriented Hand Object Interaction for Generalizable Robotic Manipulation」PDF原文文档。

背 景随着机器人技术的不断发展,机器人在日常生活中的应用越来越广泛,如物体搬运、液体倾倒、表面清洁和抽屉操作等。然而,机器人在执行这些任务时,往往需要精确的模仿学习能力,以适应不同的环境和任务需求。现有的机器人模仿学习方法大多依赖于视频演示,但这些视频演示通常需要与机器人执行环境高度一致,限制了机器人的泛化能力。为了克服这一限制,研究者们开始探索结合生成模型(如视频扩散模型)的方法,以生成适应性强的机器人操作视频演示。然而,现有的手 - 物交互(HOI)视频数据集存在视角不一致、动作与语言指令对齐不精确等问题,严重影响了视频生成的质量和机器人的模仿学习效果。因此,香港中文大学(深圳)的研究团队发布了 TASTE-Rob 数据集,旨在解决这些问题,推动机器人手 - 物交互视频生成与模仿学习的研究。

主要内容
(一)数据集构建TASTE-Rob 数据集包含 100,856 个以自我为中心视角(ego-centric)的手 - 物交互视频,每个视频都与语言指令精确对齐,并且从固定相机视角拍摄,以确保交互的清晰度。该数据集的构建考虑了以下几个关键目标:一是确保每个视频都记录了一个单一的动作,且与任务指令严格对应;二是涵盖多样化的环境和任务;三是包含各种手部姿势,以适应不同的手 - 物交互场景。

在数据收集过程中,研究团队采用了配备广角镜头的多个相机,能够拍摄 1080p 的 ego-centric 视频。为了确保与机器人模仿学习演示的一致性,所有视频均采用静态相机视角拍摄,并且每个视频的录制时间严格限制在 8 秒以内,仅包含一个动作。此外,为了提高数据的多样性和泛化能力,视频的录制环境包括厨房、卧室、餐桌、办公桌等多种场景,涉及拿起、放置、推动、倾倒等多种任务。同时,数据集中还包含了单手任务和双手任务的视频,分别有 75,389 个和 25,467 个。
Table 2:Dataset comparison with existing ego-centric HOI video datasets.

(二)手部姿势分析为了确保数据集中手部姿势的多样性,研究团队利用 HaMeR 工具提取了手部姿势参数,并对其进行了详细的分析。分析结果显示,手掌向下(0° - 180°)的手部姿势最为常见,因为这种姿势适合抓取物体。此外,手掌向左(90° - 270°)的手部姿势出现频率略高于手掌向右的情况,这可能是因为所有采集者均为右撇子,更倾向于使用右手进行物体操作。
在手指间角度和手指弯曲度方面,研究团队重点关注拇指、食指和中指,因为这三根手指在手 - 物交互中起主导作用。分析发现,手指间角度的分布较广,表明手部姿势具有多样性。而食指和中指的弯曲度分布模式相似,反映了它们在手 - 物交互动作中同步弯曲的情况。这些分析结果表明,TASTE-Rob 数据集能够捕捉到各种各样的手部姿势,为机器人模仿学习提供了丰富的样本。
在这里插入图片描述

(三)视频生成方法基于 TASTE-Rob 数据集,研究团队提出了一种三阶段的姿态细化流程,用于生成高质量的任务导向手 - 物交互视频。这一流程包括:第一阶段,利用可学习的图像到视频(I2V)扩散模型生成粗略的手 - 物交互视频,满足“准确的任务理解”要求;第二阶段,从粗略视频中提取手部姿势序列,并使用可学习的运动扩散模型(MDM)对其进行细化,以确保抓取姿势的逼真性;第三阶段,将细化后的手部姿势序列作为额外的条件,重新生成高保真的手 - 物交互视频,同时满足“准确的任务理解”和“可行的手 - 物交互”两个要求。

  1. 扩散模型基础扩散模型通过学习逆转噪声过程来工作。具体来说,它首先将数据样本转换为高斯噪声,然后通过多步去噪过程学习重建原始数据。在视频生成任务中,研究团队采用了 DynamiCrafter,这是一种强大的 I2V 潜在扩散模型。该模型在紧凑的潜在空间中学习去噪过程,将视频帧编码为潜在表示,然后通过解码器重建视频。在训练过程中,模型的目标是最小化预测噪声与真实噪声之间的差异。通过这种方式,模型能够生成与输入任务描述和环境图像相匹配的手 - 物交互视频。
    Figure 14. More results of video generation comparison between TASTE-Rob and CogVideoX

  2. 姿态细化流程在第一阶段,研究团队通过微调 DynamiCrafter 模型,生成了能够准确理解任务的粗略手 - 物交互视频。然而,这些视频在手部抓取姿势的一致性方面存在不足。为了解决这一问题,研究团队在第二阶段引入了 MDM 模型。MDM 模型基于独特的 Transformer 编码器架构,能够直接生成干净的运动序列。在这一阶段,研究团队扩展了原始 MDM 框架,通过增加一个图像分支来整合环境信息。这样,MDM 模型能够根据任务描述、环境图像以及粗略手部姿势序列,生成更加逼真的手部姿势序列。在第三阶段,研究团队将细化后的手部姿势序列作为条件,重新生成高质量的手 - 物交互视频。为了实现这一点,研究团队训练了一个帧独立的姿态编码器,该编码器能够根据细化后的手部姿势序列调整每一帧的中间特征。通过这种方式,生成的视频不仅能够准确理解任务,还能够保持手部抓取姿势的一致性和逼真性。
    (四)实验与评估研究团队在 TASTE-Rob 数据集上对提出的模型进行了广泛的实验评估。实验结果表明,TASTE-Rob 数据集与姿态细化流程相结合,在生成高质量任务导向手 - 物交互视频方面取得了显著的性能提升,超越了现有的最先进方法。具体来说,研究团队采用了多种评估指标,包括视频生成质量、抓取姿势一致性和机器人操作性能。

  3. 视频生成质量评估为了评估生成视频的质量,研究团队采用了 Fréchet 视频距离(FVD)、核视频距离(KVD)和感知输入一致性(PIC)等指标。这些指标从空间和时间两个维度评估生成视频的质量。实验结果表明,TASTE-Rob 方法在这些指标上均优于现有的强大 I2V 扩散模型,如 DynamiCrafter、consistI2V、Open-Sora Plan 和 CogVideoX。例如,TASTE-Rob 在 KVD 指标上的得分仅为 0.03,远低于其他方法;在 FVD 指标上的得分仅为 9.43,同样优于其他方法;而在 PIC 指标上,TASTE-Rob 的得分达到了 0.90,表明生成视频与输入任务描述和环境图像的高度一致性。这些结果表明,TASTE-Rob 方法能够生成高质量、与任务描述和环境图像相匹配的手 - 物交互视频。

  4. 抓取姿势一致性评估为了评估抓取姿势的一致性,研究团队提出了一个新的指标——抓取姿势方差(GPV)。该指标通过计算视频中抓取姿势参数的方差来衡量抓取姿势的一致性。实验结果表明,TASTE-Rob 方法在 GPV 指标上的表现优于粗略生成的视频。具体来说,TASTE-Rob 的 GPV 值为 0.24,而粗略生成的视频的 GPV 值为 0.28。这表明 TASTE-Rob 方法能够生成抓取姿势更加一致的视频,从而为机器人操作提供了更加可靠的演示。
    Figure 13. Examples of video frame and corresponding language instruction. In TASTE-Rob, we enhance the language instructionswith more specific details to ensure accurate identification of unique target objects and their corresponding actions.

  5. 机器人操作性能评估为了评估生成视频对机器人操作性能的影响,研究团队在 Mujoco 仿真平台上进行了实验。实验结果表明,使用 TASTE-Rob 生成的视频作为演示,机器人在操作任务中的成功率显著提高。具体来说,TASTE-Rob 方法的成功率为 96%,而粗略生成视频的成功率为 84%。这一结果表明,TASTE-Rob 方法生成的高质量手 - 物交互视频能够显著提高机器人的操作性能,使其在复杂场景下更加准确地完成任务。
    TASTE-Rob 数据集的发布为机器人模仿学习领域带来了重大突破。它不仅提供了高质量的视频数据,还通过三阶段视频生成流程显著提升了视频质量和机器人操作的准确性。这一数据集将为机器人在复杂环境下的操作能力提升提供重要支持,推动机器人技术在工业、医疗、家庭等多个领域的广泛应用。
    资料获取方法:右下角“点赞”和“♡”。关注公众号,回复“数据集”,即可获得论文「TASTE Rob Advancing Video Generation of Task-Oriented Hand Object Interaction for Generalizable Robotic Manipulation」PDF原文文档。

微信号|Robo Lab
重构机器「看见世界」的方式。
用硬核科普+实战案例,拆解光束背后的科技革命。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值