报告导读
近期,香港中文大学(深圳)的研究团队发布了一个名为 TASTE-Rob 的大规模数据集,旨在推动机器人手 - 物交互视频生成与模仿学习的发展。这一成果的发布,不仅为机器人领域的研究者提供了宝贵的资源,也为机器人在复杂场景下的操作能力提升带来了新的希望。资料获取方法:右下角“点赞”和“♡”。关注公众号,回复“数据集”,即可获得论文「TASTE Rob Advancing Video Generation of Task-Oriented Hand Object Interaction for Generalizable Robotic Manipulation」PDF原文文档。
背 景随着机器人技术的不断发展,机器人在日常生活中的应用越来越广泛,如物体搬运、液体倾倒、表面清洁和抽屉操作等。然而,机器人在执行这些任务时,往往需要精确的模仿学习能力,以适应不同的环境和任务需求。现有的机器人模仿学习方法大多依赖于视频演示,但这些视频演示通常需要与机器人执行环境高度一致,限制了机器人的泛化能力。为了克服这一限制,研究者们开始探索结合生成模型(如视频扩散模型)的方法,以生成适应性强的机器人操作视频演示。然而,现有的手 - 物交互(HOI)视频数据集存在视角不一致、动作与语言指令对齐不精确等问题,严重影响了视频生成的质量和机器人的模仿学习效果。因此,香港中文大学(深圳)的研究团队发布了 TASTE-Rob 数据集,旨在解决这些问题,推动机器人手 - 物交互视频生成与模仿学习的研究。
主要内容
(一)数据集构建TASTE-Rob 数据集包含 100,856 个以自我为中心视角(ego-centric)的手 - 物交互视频,每个视频都与语言指令精确对齐,并且从固定相机视角拍摄,以确保交互的清晰度。该数据集的构建考虑了以下几个关键目标:一是确保每个视频都记录了一个单一的动作,且与任务指令严格对应;二是涵盖多样化的环境和任务;三是包含各种手部姿势,以适应不同的手 - 物交互场景。
在数据收集过程中,研究团队采用了配备广角镜头的多个相机,能够拍摄 1080p 的 ego-centric 视频。为了确保与机器人模仿学习演示的一致性,所有视频均采用静态相机视角拍摄,并且每个视频的录制时间严格限制在 8 秒以

最低0.47元/天 解锁文章
506

被折叠的 条评论
为什么被折叠?



